論文の概要: Aggregation Hides Out-of-Distribution Generalization Failures from Spurious Correlations
- arxiv url: http://arxiv.org/abs/2510.24884v1
- Date: Tue, 28 Oct 2025 18:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.692665
- Title: Aggregation Hides Out-of-Distribution Generalization Failures from Spurious Correlations
- Title(参考訳): Aggregations Out-of-Distribution Generalization failures from Spurious correlations (特集:一般)
- Authors: Olawale Salaudeen, Haoran Zhang, Kumail Alhamoud, Sara Beery, Marzyeh Ghassemi,
- Abstract要約: 我々は,IDを改善しながらOOD性能を低下させる相関関係は,実際には稀であることがわかった。
単純な勾配法を用いて,直線上の精度が保たない意味的コヒーレントなOOD部分集合を同定する。
以上の結果から,OODロバストネスの重要な障害モードが明らかになる可能性が示唆された。
- 参考スコア(独自算出の注目度): 23.364199238965075
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Benchmarks for out-of-distribution (OOD) generalization frequently show a strong positive correlation between in-distribution (ID) and OOD accuracy across models, termed "accuracy-on-the-line." This pattern is often taken to imply that spurious correlations - correlations that improve ID but reduce OOD performance - are rare in practice. We find that this positive correlation is often an artifact of aggregating heterogeneous OOD examples. Using a simple gradient-based method, OODSelect, we identify semantically coherent OOD subsets where accuracy on the line does not hold. Across widely used distribution shift benchmarks, the OODSelect uncovers subsets, sometimes over half of the standard OOD set, where higher ID accuracy predicts lower OOD accuracy. Our findings indicate that aggregate metrics can obscure important failure modes of OOD robustness. We release code and the identified subsets to facilitate further research.
- Abstract(参考訳): アウト・オブ・ディストリビューション(OOD)の一般化のベンチマークは、しばしば「精度・オン・ザ・ライン(accuracy-on-the-line)」と呼ばれるモデル間でのイン・ディストリビューション(ID)とOODの精度の間に強い正の相関を示す。
このパターンは、IDを改善するがOODのパフォーマンスを低下させる相関関係が実際には稀であることを示すためにしばしば用いられる。
この正の相関は、しばしば異種 OOD の例を集約する人工物である。
単純な勾配法であるOODSelectを用いて,直線上の精度が保たない意味的コヒーレントなOOD部分集合を同定する。
広く使われている分散シフトベンチマーク全体で、OODSelectはサブセットを明らかにし、時には標準OODセットの半分以上をカバーし、高いID精度はOODの精度を低下させる。
以上の結果から,OODロバストネスの重要な障害モードが明らかになる可能性が示唆された。
コードと識別されたサブセットをリリースして、さらなる研究を促進します。
関連論文リスト
- Are Domain Generalization Benchmarks with Accuracy on the Line Misspecified? [11.534630666670568]
モデルが活用できる不安定な統計的ショートカットである鮮やかな相関は、性能のアウト・オブ・ディストリビューションを低下させると予想される。
現状の実践は、排除しようとする刺激的なシグナルを真に強調することなく、"ロバスト性"を評価することを示しています。
論文 参考訳(メタデータ) (2025-03-31T19:50:04Z) - The Best of Both Worlds: On the Dilemma of Out-of-distribution Detection [75.65876949930258]
アウト・オブ・ディストリビューション(OOD)検出はモデル信頼性に不可欠である。
我々は,OODの一般化能力を秘かに犠牲にすることで,最先端手法のOOD検出性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-12T07:02:04Z) - Rethinking the Evaluation of Out-of-Distribution Detection: A Sorites Paradox [70.57120710151105]
既存のアウト・オブ・ディストリビューション(OOD)検出ベンチマークは、サンプルを新しいラベルでOODデータとして分類する。
いくつかの限界OODサンプルは、実際には分布内(ID)サンプルに密接なセマンティック内容を持ち、OODサンプルをソリテスパラドックス(英語版)と判定する。
この問題に対処するため,Incremental Shift OOD (IS-OOD) というベンチマークを構築した。
論文 参考訳(メタデータ) (2024-06-14T09:27:56Z) - How Does Fine-Tuning Impact Out-of-Distribution Detection for Vision-Language Models? [29.75562085178755]
数ショットダウンストリームタスクに対するOOD検出の微調整の影響について検討する。
以上の結果から,OODスコアの適切な選択はCLIPに基づく微調整に不可欠であることが示唆された。
また, 即時学習は, ゼロショットに比較して最先端のOOD検出性能を示すことを示す。
論文 参考訳(メタデータ) (2023-06-09T17:16:50Z) - Calibrated ensembles can mitigate accuracy tradeoffs under distribution
shift [108.30303219703845]
ID校正アンサンブルは,IDとOODの精度で,先行技術(自己学習に基づく)より優れていた。
我々は,この手法をスタイリングされた環境で解析し,IDとOODの両方をうまく処理するためのアンサンブルの2つの重要な条件を同定する。
論文 参考訳(メタデータ) (2022-07-18T23:14:44Z) - Robust Out-of-distribution Detection for Neural Networks [51.19164318924997]
既存の検出機構は, 分布内およびOOD入力の評価において, 極めて脆弱であることを示す。
ALOE と呼ばれる実効性のあるアルゴリズムを提案する。このアルゴリズムは,逆向きに構築された逆数と外数の両方の例にモデルを公開することにより,堅牢なトレーニングを行う。
論文 参考訳(メタデータ) (2020-03-21T17:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。