論文の概要: Accuracy on the wrong line: On the pitfalls of noisy data for out-of-distribution generalisation
- arxiv url: http://arxiv.org/abs/2406.19049v1
- Date: Thu, 27 Jun 2024 09:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 14:37:31.611932
- Title: Accuracy on the wrong line: On the pitfalls of noisy data for out-of-distribution generalisation
- Title(参考訳): 間違った線上の正確性:分布外一般化のためのノイズデータの落とし穴について
- Authors: Amartya Sanyal, Yaxi Hu, Yaodong Yu, Yian Ma, Yixin Wang, Bernhard Schölkopf,
- Abstract要約: ノイズの多いデータやニュアンスの特徴は,その正確さを損なうのに十分であることを示す。
ノイズの多いデータとノイズのある特徴を持つ合成データセットと実データセットの両方で、この現象を実証する。
- 参考スコア(独自算出の注目度): 70.36344590967519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "Accuracy-on-the-line" is a widely observed phenomenon in machine learning, where a model's accuracy on in-distribution (ID) and out-of-distribution (OOD) data is positively correlated across different hyperparameters and data configurations. But when does this useful relationship break down? In this work, we explore its robustness. The key observation is that noisy data and the presence of nuisance features can be sufficient to shatter the Accuracy-on-the-line phenomenon. In these cases, ID and OOD accuracy can become negatively correlated, leading to "Accuracy-on-the-wrong-line". This phenomenon can also occur in the presence of spurious (shortcut) features, which tend to overshadow the more complex signal (core, non-spurious) features, resulting in a large nuisance feature space. Moreover, scaling to larger datasets does not mitigate this undesirable behavior and may even exacerbate it. We formally prove a lower bound on Out-of-distribution (OOD) error in a linear classification model, characterizing the conditions on the noise and nuisance features for a large OOD error. We finally demonstrate this phenomenon across both synthetic and real datasets with noisy data and nuisance features.
- Abstract(参考訳): 精度・オン・ザ・ライン(Accuracy-on-the-line)は、機械学習において広く見られる現象であり、モデルの分布内(ID)と分布外(OOD)データの精度が、異なるハイパーパラメータとデータ構成の間で正の相関関係を持つ。
しかし、この便利な関係はいつ崩壊するのだろうか?
本研究では, その堅牢性について検討する。
キーとなる観察は、ノイズデータとニュアンスの特徴の存在は、精度とライン現象を壊すのに十分であるということである。
これらのケースでは、IDとOODの精度は負の相関関係となり、"Accuracy-on-wrong-line"となる。
この現象は、より複雑な信号(コア、非スパーラス)の特徴を覆い隠す傾向があり、結果として大きなニュアンス特徴空間が生じるような、刺激的な(ショートカット)特徴の存在でも起こりうる。
さらに、大規模なデータセットへのスケーリングは、この望ましくない振る舞いを緩和せず、さらに悪化させる可能性がある。
我々は、線形分類モデルにおいて、OODエラーに対するノイズやニュアンスの特徴を特徴付けるために、OODエラーの下位境界を正式に証明する。
最終的に、ノイズの多いデータとノイズのある特徴を持つ合成データセットと実データセットの両方で、この現象を実証した。
関連論文リスト
- Orthogonal Uncertainty Representation of Data Manifold for Robust
Long-Tailed Learning [52.021899899683675]
長い尾の分布を持つシナリオでは、尾のサンプルが不足しているため、モデルが尾のクラスを識別する能力は制限される。
モデルロバストネスの長期的現象を改善するために,特徴埋め込みの直交不確実性表現(OUR)とエンドツーエンドのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-16T05:50:34Z) - Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line [65.14099135546594]
最近のテスト時間適応 (TTA) 法は, モデルに非常に弱い相関関係を示すシフトであっても, ACL と AGL の傾向を大幅に強化する。
この結果から,TTAとAGLに基づく推定手法を組み合わせることで,より広い分布シフトの集合に対する高精度なモデルOOD性能を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-10-07T23:21:25Z) - Understanding the Impact of Adversarial Robustness on Accuracy Disparity [18.643495650734398]
対向ロバスト性の影響を2つの部分に分解する: 頑健性制約により全てのクラスで標準精度を低下させる固有の効果と、クラス不均衡比によって引き起こされる影響である。
以上の結果から,実世界のデータセットよりも非線形モデルに拡張できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-28T20:46:51Z) - Agreement-on-the-Line: Predicting the Performance of Neural Networks
under Distribution Shift [18.760716606922482]
類似しているが驚くべき現象が、ニューラルネットワークの分類器のペア間の一致にも現れている。
我々の予測アルゴリズムは、ライン上の合意が保持されるシフトと、ライン上の正確性がない場合の両方において、従来の手法よりも優れています。
論文 参考訳(メタデータ) (2022-06-27T07:50:47Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Classification and Adversarial examples in an Overparameterized Linear
Model: A Signal Processing Perspective [10.515544361834241]
最先端のディープラーニング分類器は、無限の逆境摂動に非常に敏感である。
学習されたモデルは、分類が一般化するが回帰はしない中間体制の敵に感受性がある。
敵対的感受性にもかかわらず、これらの特徴による分類は、より一般的に研究されている「非依存的特徴」モデルよりも容易である。
論文 参考訳(メタデータ) (2021-09-27T17:35:42Z) - An Investigation of the (In)effectiveness of Counterfactually Augmented
Data [10.316235366821111]
その結果,CADは頑健な特徴を識別する上で有効であるが,頑健な特徴の学習を阻害する可能性が示唆された。
その結果、現在のCADデータセットにおける摂動多様性の欠如は、OOD一般化におけるその効果を制限していることがわかった。
論文 参考訳(メタデータ) (2021-07-01T21:46:43Z) - Removing Spurious Features can Hurt Accuracy and Affect Groups
Disproportionately [83.68135652247496]
自然な修正は、モデルからスプリアスな特徴を取り除くことである。
誘導バイアスによる突発的特徴の除去は精度を低下させる可能性が示唆された。
また,ロバストな自己学習によって,全体的な正確性に影響を与えずにスプリアスな特徴を除去できることを示した。
論文 参考訳(メタデータ) (2020-12-07T23:08:59Z) - Learning Causal Models Online [103.87959747047158]
予測モデルは、予測を行うためにデータの急激な相関に依存することができる。
強い一般化を達成するための一つの解決策は、モデルに因果構造を組み込むことである。
本稿では,突発的特徴を継続的に検出・除去するオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-12T20:49:20Z) - Linear predictor on linearly-generated data with missing values: non
consistency and solutions [0.0]
本研究では,予測対象が全観測データの線形関数である場合について検討する。
不足する値が存在する場合、最適予測器は線形でない可能性があることを示す。
論文 参考訳(メタデータ) (2020-02-03T11:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。