論文の概要: Navigating Data Corruption in Machine Learning: Balancing Quality, Quantity, and Imputation Strategies
- arxiv url: http://arxiv.org/abs/2412.18296v1
- Date: Tue, 24 Dec 2024 09:04:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:56:15.290935
- Title: Navigating Data Corruption in Machine Learning: Balancing Quality, Quantity, and Imputation Strategies
- Title(参考訳): 機械学習におけるデータの破壊をナビゲートする - 品質、量、インプット戦略のバランスをとる
- Authors: Qi Liu, Wanjing Ma,
- Abstract要約: 欠落や騒々しいデータを含むデータの破損は、現実世界の機械学習において重大な課題を生じさせる。
本研究では,データ破損がモデル性能に与える影響について検討し,これらの効果を緩和するための戦略を探る。
データセットサイズの増加は軽減されるが,データ破損の影響を完全に克服することはできない。
- 参考スコア(独自算出の注目度): 8.770864706004472
- License:
- Abstract: Data corruption, including missing and noisy data, poses significant challenges in real-world machine learning. This study investigates the effects of data corruption on model performance and explores strategies to mitigate these effects through two experimental setups: supervised learning with NLP tasks (NLP-SL) and deep reinforcement learning for traffic signal optimization (Signal-RL). We analyze the relationship between data corruption levels and model performance, evaluate the effectiveness of data imputation methods, and assess the utility of enlarging datasets to address data corruption. Our results show that model performance under data corruption follows a diminishing return curve, modeled by the exponential function. Missing data, while detrimental, is less harmful than noisy data, which causes severe performance degradation and training instability, particularly in sequential decision-making tasks like Signal-RL. Imputation strategies involve a trade-off: they recover missing information but may introduce noise. Their effectiveness depends on imputation accuracy and corruption ratio. We identify distinct regions in the imputation advantage heatmap, including an "imputation advantageous corner" and an "imputation disadvantageous edge" and classify tasks as "noise-sensitive" or "noise-insensitive" based on their decision boundaries. Furthermore, we find that increasing dataset size mitigates but cannot fully overcome the effects of data corruption. The marginal utility of additional data diminishes as corruption increases. An empirical rule emerges: approximately 30% of the data is critical for determining performance, while the remaining 70% has minimal impact. These findings provide actionable insights into data preprocessing, imputation strategies, and data collection practices, guiding the development of robust machine learning systems in noisy environments.
- Abstract(参考訳): 欠落や騒々しいデータを含むデータの破損は、現実世界の機械学習において重大な課題を生じさせる。
本研究では,NLPタスクを用いた教師付き学習(NLP-SL)と信号信号最適化のための深層強化学習(Signal-RL)という2つの実験手法を用いて,データ破損がモデル性能に与える影響について検討した。
データ破損レベルとモデル性能の関係を解析し、データ計算手法の有効性を評価し、データ破損に対処するためのデータセットの拡張の有用性を評価する。
以上の結果から,データ破損時のモデル性能は指数関数によってモデル化された回帰曲線の減少に従っていることがわかった。
有害なデータの欠落は、ノイズの多いデータよりも有害であり、特にSignal-RLのようなシーケンシャルな意思決定タスクにおいて、厳しいパフォーマンス劣化とトレーニング不安定を引き起こす。
不足した情報を回復するが、ノイズを発生させる可能性がある。
その効果は計算精度と汚職率に依存する。
提案手法では,「入力有利コーナー」と「入力不利エッジ」を含む各領域を識別し,その決定境界に基づいてタスクを「ノイズ感受性」あるいは「ノイズ感受性」と分類する。
さらに,データセットサイズの増加は軽減されるが,データ破損の影響を完全に克服することはできない。
汚職の増加に伴い、追加データの限界効用は減少する。
データの約30%はパフォーマンスを決定するために重要であり、残りの70%は最小限の影響しか与えない。
これらの発見は、ノイズの多い環境での堅牢な機械学習システムの開発を導くために、データ前処理、計算戦略、データ収集プラクティスに関する実用的な洞察を提供する。
関連論文リスト
- Uncertainty-based Offline Variational Bayesian Reinforcement Learning for Robustness under Diverse Data Corruptions [8.666879925570331]
実世界のオフラインデータセットは、しばしばセンサーの故障や悪意のある攻撃によるデータ破損にさらされる。
既存の手法は、破損したデータによって引き起こされる高い不確実性の下で堅牢なエージェントを学ぶのに苦労している。
オフラインRL(TRACER)に対するロバストな変分ベイズ推定法を提案する。
論文 参考訳(メタデータ) (2024-11-01T09:28:24Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - CaMU: Disentangling Causal Effects in Deep Model Unlearning [11.527876673219758]
マシンアンラーニングでは、残ったデータの必要な情報を保持しながら、データを忘れる情報を取り除く必要がある。
本研究では、未学習の因果分析を行い、Causal Machine Unlearning(CaMU)と呼ばれる新しいフレームワークを導入する。
CaMUは、残データに関する情報への介入を追加し、忘れデータと残データの間の因果関係を解消する。
論文 参考訳(メタデータ) (2024-01-30T23:39:40Z) - Causal Deep Reinforcement Learning Using Observational Data [11.790171301328158]
深部強化学習(DRL)における2つの解答法を提案する。
提案手法はまず, 因果推論法に基づいて異なる試料の重要度を算出し, 損失関数に対する異なる試料の影響を調整する。
本手法の有効性を実証し,実験的に検証する。
論文 参考訳(メタデータ) (2022-11-28T14:34:39Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Learning Deep Neural Networks under Agnostic Corrupted Supervision [37.441467641123026]
我々は,汚職のタイプを前提にせずに,強力な保証を実現する効率的なロバストアルゴリズムを提案する。
本アルゴリズムは,平均勾配に対するデータポイントの集団的影響の制御に重点を置いている。
複数のベンチマークデータセットの実験は、異なる種類の汚職下でのアルゴリズムの堅牢性を実証した。
論文 参考訳(メタデータ) (2021-02-12T19:36:04Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。