論文の概要: Quality of Data in Machine Learning
- arxiv url: http://arxiv.org/abs/2112.09400v1
- Date: Fri, 17 Dec 2021 09:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 15:56:05.436270
- Title: Quality of Data in Machine Learning
- Title(参考訳): 機械学習におけるデータの質
- Authors: Antti Kariluoto, Arto P\"arn\"anen, Joni Kultanen, Jukka Soininen,
Pekka Abrahamsson
- Abstract要約: この研究は、開始前提に反論し、この場合のデータの重要性は、データの量ではなく、データの品質にあることを述べ続けている。
- 参考スコア(独自算出の注目度): 3.9998518782208774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common assumption exists according to which machine learning models improve
their performance when they have more data to learn from. In this study, the
authors wished to clarify the dilemma by performing an empirical experiment
utilizing novel vocational student data. The experiment compared different
machine learning algorithms while varying the number of data and feature
combinations available for training and testing the models. The experiment
revealed that the increase of data records or their sample frequency does not
immediately lead to significant increases in the model accuracies or
performance, however the variance of accuracies does diminish in the case of
ensemble models. Similar phenomenon was witnessed while increasing the number
of input features for the models. The study refutes the starting assumption and
continues to state that in this case the significance in data lies in the
quality of the data instead of the quantity of the data.
- Abstract(参考訳): 学習すべきデータが増えると、機械学習モデルがパフォーマンスを改善するという一般的な仮定が存在する。
本研究では,新しい職業学生データを用いて経験実験を行い,ジレンマを明らかにすることを目的とした。
実験では、異なる機械学習アルゴリズムを比較し、モデルのトレーニングとテストに利用可能なデータ数と機能の組み合わせを変化させた。
実験により,データ記録やサンプル周波数の増加は,モデルアキュラティや性能の大幅な向上には至らないが,アンサンブルモデルではアキュラティのばらつきが減少することが明らかとなった。
同様の現象がモデルの入力機能数を増加させながら観測された。
この研究は、開始前提に反論し、この場合のデータの重要性は、データの量ではなく、データの品質にあることを述べ続けている。
関連論文リスト
- Fair Generalized Linear Mixed Models [0.0]
機械学習の公正性は、データとモデルの不正確さのバイアスが差別的な決定に結びつかないことを保証することを目的としている。
両問題を同時に処理できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-15T11:42:41Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Analyzing Effects of Fake Training Data on the Performance of Deep
Learning Systems [0.0]
ディープラーニングモデルは、クラス不均衡や分散シフトに対する堅牢性の欠如など、さまざまな問題に悩まされることが多い。
GAN(Generative Adversarial Networks)の出現により、高品質な合成データを生成することが可能になった。
本研究では, 各種合成データと原データとを混合した場合, アウト・オブ・ディストリビューションデータに対するモデルの堅牢性と, 予測の一般品質に影響を及ぼす影響を解析する。
論文 参考訳(メタデータ) (2023-03-02T13:53:22Z) - On Inductive Biases for Machine Learning in Data Constrained Settings [0.0]
この論文は、データ制約された設定で表現力のあるモデルを学ぶという問題に対する異なる答えを探求する。
ニューラルネットワークを学ぶために、大きなデータセットに頼るのではなく、データ構造を反映した既知の関数によって、いくつかのモジュールを置き換えるつもりです。
我々のアプローチは「帰納的バイアス」のフードの下に置かれており、これは探索するモデルの空間を制限する手元にあるデータの仮説として定義することができる。
論文 参考訳(メタデータ) (2023-02-21T14:22:01Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Intra-domain and cross-domain transfer learning for time series data --
How transferable are the features? [0.0]
本研究の目的は,時系列データの異なる領域間において,転送可能がどのような特徴を持つかを評価することである。
伝達学習の効果は,モデルの予測性能と学習時の収束率の観点から観察される。
論文 参考訳(メタデータ) (2022-01-12T12:55:21Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Synthesizing Irreproducibility in Deep Networks [2.28438857884398]
現代のディープネットワークは非生産性に苦しむ(非決定性または不特定化とも呼ばれる)
単一の非線形性や非常に単純なデータやモデルであっても、不再現性が生じることを示す。
モデルの複雑さと非線形性の選択は、深いモデルを再現不能にする上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-02-21T21:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。