論文の概要: Robustness of Probabilistic Models to Low-Quality Data: A Multi-Perspective Analysis
- arxiv url: http://arxiv.org/abs/2512.11912v1
- Date: Thu, 11 Dec 2025 02:10:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.018282
- Title: Robustness of Probabilistic Models to Low-Quality Data: A Multi-Perspective Analysis
- Title(参考訳): 低品質データに対する確率モデルのロバスト性:マルチパースペクティブ解析
- Authors: Liu Peng, Yaochu Jin,
- Abstract要約: 低品質データの効果に関する体系的な比較研究は、現代の確率モデルにまたがる頑健性のスペクトルを明らかにしている。
トークン予測からシーケンス・ツー・シーケンス・タスクに至るまで,自動回帰言語モデルは極めてレジリエンスであることがわかった。
同じレベルのデータ破損の下で、クラス条件拡散モデルは破滅的に劣化する。
- 参考スコア(独自算出の注目度): 23.834741751854448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A systematic, comparative investigation into the effects of low-quality data reveals a stark spectrum of robustness across modern probabilistic models. We find that autoregressive language models, from token prediction to sequence-to-sequence tasks, are remarkably resilient (for GPT-2, test NLL increases modestly from 2.87 to 3.59 despite 50% token corruption). By contrast, under the same levels of data corruption, class-conditional diffusion models degrade catastrophically (image-label consistency plummets by 56.81% relative to baseline), while classifiers show a moderate impact that diminishes with dataset scale. To explain these discrepancies, we analyze the results through a multi-perspective lens, integrating information theory, PAC learning, and gradient dynamics. These analyses suggest that robustness is heavily influenced by two key principles: the richness of conditioning information, which constrains the learning problem, and the absolute information content of the training data, which allows the signal from correct information to dominate statistical noise.
- Abstract(参考訳): 低品質データの効果に関する体系的な比較研究は、現代の確率モデルにまたがる頑健性のスペクトルを明らかにしている。
トークン予測からシーケンス・ツー・シーケンスタスクに至るまで,自動回帰言語モデルは極めて弾力性が高い(GPT-2では,50%のトークン破損にもかかわらず,テストNLLは2.87から3.59に緩やかに増加する)。
対照的に、同じレベルのデータ破壊の下では、クラス条件拡散モデルは破滅的に劣化する(画像ラベルの一貫性はベースラインに対して56.81%低下する)。
これらの相違を説明するために,情報理論,PAC学習,勾配ダイナミクスを統合した多視点レンズを用いて結果を解析する。
これらの分析は、学習問題を制約する条件付け情報の豊かさと、正しい情報からの信号が統計的ノイズを支配できる訓練データの絶対的情報内容の2つの原則に強く影響されていることを示唆している。
関連論文リスト
- From Linear to Nonlinear: Provable Weak-to-Strong Generalization through Feature Learning [27.3606707777401]
線形CNN(弱)から2層ReLU CNN(強)への弱強一般化の形式解析を提供する。
分析では、データセットの信号対雑音特性に基づいて、データスカースとデータバウンダントという2つのレシエーションを特定した。
論文 参考訳(メタデータ) (2025-10-28T07:53:24Z) - Robust Molecular Property Prediction via Densifying Scarce Labeled Data [53.24886143129006]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では, ラベル付きデータを利用して, 分布内データ(ID)と分布外データ(OOD)を補間する2段階最適化手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T15:27:40Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Rethinking Benign Overfitting in Two-Layer Neural Networks [2.486161976966064]
我々は、クラス依存の異種ノイズを取り入れて特徴雑音データモデルを洗練し、ニューラルネットワークにおける過剰適合現象を再検討する。
ニューラルネットワークは「データノイズ」を利用して暗黙的な特徴を学習し、長い尾を持つデータの分類精度を向上させる。
論文 参考訳(メタデータ) (2025-02-17T15:20:04Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Analyzing the Effects of Handling Data Imbalance on Learned Features
from Medical Images by Looking Into the Models [50.537859423741644]
不均衡なデータセットでモデルをトレーニングすることは、学習問題にユニークな課題をもたらす可能性がある。
ニューラルネットワークの内部ユニットを深く調べて、データの不均衡処理が学習した機能にどのように影響するかを観察します。
論文 参考訳(メタデータ) (2022-04-04T09:38:38Z) - DeepAdversaries: Examining the Robustness of Deep Learning Models for
Galaxy Morphology Classification [47.38422424155742]
銀河の形態分類では、画像データにおける摂動の影響について検討する。
ドメイン適応によるトレーニングはモデルロバスト性を向上し、これらの摂動の影響を緩和することを示す。
論文 参考訳(メタデータ) (2021-12-28T21:29:02Z) - The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning [25.85044477227461]
このベースラインに対するアウト・オブ・ディストリビューションデータより正確であるモデルは「有効ロバスト性」を示す。
より大規模なデータセットで事前トレーニングされたモデルは、収束時に消滅するトレーニング中に効果的な堅牢性を示す。
本稿では, 最先端システムに効率的なロバスト性を拡張し, 最先端モデルの分布外精度を向上させるためのいくつかの戦略について論じる。
論文 参考訳(メタデータ) (2021-06-30T06:21:42Z) - On the Role of Dataset Quality and Heterogeneity in Model Confidence [27.657631193015252]
安全クリティカルなアプリケーションは、正確で校正された確率を出力する機械学習モデルを必要とする。
未分類のディープネットワークは、過度に信頼された予測をすることが知られている。
本研究では,データセットサイズとラベルノイズがモデルの信頼性に与える影響について検討した。
論文 参考訳(メタデータ) (2020-02-23T05:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。