論文の概要: On Data-centric Myths
- arxiv url: http://arxiv.org/abs/2111.11514v1
- Date: Mon, 22 Nov 2021 20:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 15:19:30.987885
- Title: On Data-centric Myths
- Title(参考訳): データ中心神話について
- Authors: Antonia Marcu, Adam Pr\"ugel-Bennett
- Abstract要約: 1) データの次元は必ずしも最小化されるべきではなく,2) データを操作する場合, 分布を保存することは本質的であることを示す。
本研究では,データ修正が学習表現に与える影響について,有望な研究方向として提案する。
- 参考スコア(独自算出の注目度): 0.7832189413179361
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The community lacks theory-informed guidelines for building good data sets.
We analyse theoretical directions relating to what aspects of the data matter
and conclude that the intuitions derived from the existing literature are
incorrect and misleading. Using empirical counter-examples, we show that 1)
data dimension should not necessarily be minimised and 2) when manipulating
data, preserving the distribution is inessential. This calls for a more
data-aware theoretical understanding. Although not explored in this work, we
propose the study of the impact of data modification on learned representations
as a promising research direction.
- Abstract(参考訳): コミュニティには、優れたデータセットを構築するための理論上のガイドラインが欠けている。
データの内容に関する理論的方向性を分析し、既存の文献から派生した直観が誤りで誤解を招くと結論づける。
経験的な反例を用いることで
1)データ次元を必ずしも最小化してはならない
2) データを操作する場合は, 分散保存が重要となる。
これにより、よりデータ対応の理論的理解が求められます。
本研究は検討されていないが,有望な研究方向として,データ修正が学習表現に与える影響について検討する。
関連論文リスト
- Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。
本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。
この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文 参考訳(メタデータ) (2024-04-26T09:51:24Z) - Double Descent and Overfitting under Noisy Inputs and Distribution Shift for Linear Denoisers [3.481985817302898]
教師付き denoising を研究する上での懸念は,テスト分布からのノイズレストレーニングデータが常に存在するとは限らないことだ。
そこで本研究では,分散シフト下での教師付きノイズ除去とノイズインプット回帰について検討した。
論文 参考訳(メタデータ) (2023-05-26T22:41:40Z) - Do Deep Neural Networks Always Perform Better When Eating More Data? [82.6459747000664]
Identically Independent Distribution(IID)とOut of Distribution(OOD)による実験を設計する。
IID条件下では、情報の量は各サンプルの効果度、サンプルの寄与度、クラス間の差がクラス情報の量を決定する。
OOD条件下では、試料のクロスドメイン度が寄与を決定づけ、無関係元素によるバイアス適合はクロスドメインの重要な要素である。
論文 参考訳(メタデータ) (2022-05-30T15:40:33Z) - A Reflection on Learning from Data: Epistemology Issues and Limitations [1.8047694351309205]
本稿では,データから得られた知識の問題点と限界について考察する。
この論文は、一般的な数学的理論を用いてプロセスを記述する際の欠点について、いくつかの光を当てている。
さらに、データから学ぶことに特化した理論の必要性を強調している。
論文 参考訳(メタデータ) (2021-07-28T11:05:34Z) - OR-Net: Pointwise Relational Inference for Data Completion under Partial
Observation [51.083573770706636]
この作業はリレーショナル推論を使って不完全なデータを埋めます。
本稿では,2つの点での相対性理論をモデル化するために,全関係ネットワーク (or-net) を提案する。
論文 参考訳(メタデータ) (2021-05-02T06:05:54Z) - HYDRA: Hypergradient Data Relevance Analysis for Interpreting Deep
Neural Networks [51.143054943431665]
本稿では、深層ニューラルネットワーク(DNN)による予測をトレーニングデータの効果として解釈する高次データ関連分析(HYDRA)を提案する。
HYDRAは、トレーニング軌跡全体を通して、テストデータポイントに対するトレーニングデータの貢献を評価する。
さらに,HyDRAは,データのコントリビューションを正確に推定し,ノイズのあるデータラベルを検出することで,影響関数よりも優れていることを定量的に示す。
論文 参考訳(メタデータ) (2021-02-04T10:00:13Z) - Categorical exploratory data analysis on goodness-of-fit issues [0.6091702876917279]
我々はCategorical Exploratory Data Analysis (CEDA)と呼ばれるデータ分析パラダイムを活用することを提案する。
CEDAは、複数の重要な分散的な側面を通じて、各データがモデル形状に適合するか、どのように一致するかを明らかにします。
我々は,CEDAをデータサイエンス教育におけるデータ分析の第一の方法として活用することの利点を,グラフィック表示により明らかにする。
論文 参考訳(メタデータ) (2020-11-19T06:11:06Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。