論文の概要: Are Domain Generalization Benchmarks with Accuracy on the Line Misspecified?
- arxiv url: http://arxiv.org/abs/2504.00186v1
- Date: Mon, 31 Mar 2025 19:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:25:55.668030
- Title: Are Domain Generalization Benchmarks with Accuracy on the Line Misspecified?
- Title(参考訳): ドメイン一般化ベンチマークは、行の精度を誤っているか?
- Authors: Olawale Salaudeen, Nicole Chiou, Shiny Weng, Sanmi Koyejo,
- Abstract要約: 従来の知恵は、急激な相関関係に依存するモデルは、分配のアウト・オブ・ディストリビューションを一般化できないことを示唆している。
相関関係に対するロバスト性を評価するために広く用いられている多くのベンチマークが不明確であることを示す。
我々は、刺激的な相関性に対する堅牢性がどのように評価されるかを再考する必要性を強調し、フィールドが優先順位付けすべき適切に特定されたベンチマークを特定し、分散シフトの下でロバスト性を有意義に反映する将来のベンチマークを設計するための戦略を列挙する。
- 参考スコア(独自算出の注目度): 11.534630666670568
- License:
- Abstract: Spurious correlations are unstable statistical associations that hinder robust decision-making. Conventional wisdom suggests that models relying on such correlations will fail to generalize out-of-distribution (OOD), especially under strong distribution shifts. However, empirical evidence challenges this view as naive in-distribution empirical risk minimizers often achieve the best OOD accuracy across popular OOD generalization benchmarks. In light of these results, we propose a different perspective: many widely used benchmarks for evaluating robustness to spurious correlations are misspecified. Specifically, they fail to include shifts in spurious correlations that meaningfully impact OOD generalization, making them unsuitable for evaluating the benefit of removing such correlations. We establish conditions under which a distribution shift can reliably assess a model's reliance on spurious correlations. Crucially, under these conditions, we should not observe a strong positive correlation between in-distribution and OOD accuracy, often called "accuracy on the line." Yet, most state-of-the-art benchmarks exhibit this pattern, suggesting they do not effectively assess robustness. Our findings expose a key limitation in current benchmarks used to evaluate domain generalization algorithms, that is, models designed to avoid spurious correlations. We highlight the need to rethink how robustness to spurious correlations is assessed, identify well-specified benchmarks the field should prioritize, and enumerate strategies for designing future benchmarks that meaningfully reflect robustness under distribution shift.
- Abstract(参考訳): 純粋な相関は不安定な統計的関連であり、堅牢な意思決定を妨げる。
従来の知恵は、特に強い分布シフトの下では、そのような相関に依存するモデルが分布外分布(OOD)を一般化できないことを示唆している。
しかし、経験的エビデンスは、この見解を、一般的なOOD一般化ベンチマークで最高のOOD精度を達成できる実験的リスク最小化器として論じている。
これらの結果を踏まえて、我々は異なる視点を提唱する: 突発的相関に対するロバスト性を評価するために広く使われている多くのベンチマークは、誤特定されている。
具体的には、OOD一般化に有意な影響を及ぼす刺激的な相関のシフトを含まないため、そのような相関を除去する利点を評価するには不適当である。
我々は,分布シフトが,素早い相関に基づくモデルの信頼度を確実に評価できる条件を確立する。
これらの条件下では、分布内とOODの精度の間に強い正の相関を観測すべきではなく、しばしば「線上の正確さ」と呼ばれる。
しかし、ほとんどの最先端ベンチマークはこのパターンを示しており、ロバストさを効果的に評価していないことを示唆している。
この結果から,領域一般化アルゴリズム,すなわち素早い相関を回避するために設計されたモデルを評価するために,現在のベンチマークにおいて重要な限界が明らかとなった。
我々は、刺激的な相関性に対する堅牢性がどのように評価されるかを再考する必要性を強調し、フィールドが優先順位付けすべき適切に特定されたベンチマークを特定し、分散シフトの下でロバスト性を有意義に反映する将来のベンチマークを設計するための戦略を列挙する。
関連論文リスト
- Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - Mitigating Spurious Correlations via Disagreement Probability [4.8884049398279705]
経験的リスク最小化(ERM)で訓練されたモデルは、ターゲットラベルとバイアス属性の急激な相関に偏りがちである。
すべてのデータサンプルのモデル性能を堅牢に向上する訓練目標を導入する。
次に, バイアスラベルを必要としない脱バイアス法DPR(Disagreement Probability based Resampling for Debiasing)を導出する。
論文 参考訳(メタデータ) (2024-11-04T02:44:04Z) - Assessing Model Generalization in Vicinity [34.86022681163714]
本稿では, 分布外テストセットにおける分類モデルの一般化能力について, 基礎的真理ラベルに依存することなく評価する。
そこで本研究では,各試料の正当性評価に,隣り合う試験試料からの応答を取り入れることを提案する。
結果のスコアは、すべてのテストサンプルで平均化され、モデル精度の全体像が示される。
論文 参考訳(メタデータ) (2024-06-13T15:58:37Z) - MANO: Exploiting Matrix Norm for Unsupervised Accuracy Estimation Under Distribution Shifts [25.643876327918544]
モデルのアウトプット、特にロジットを活用することは、トレーニング済みニューラルネットワークのテスト精度を、アウト・オブ・ディストリビューションのサンプルで推定する一般的なアプローチである。
実装の容易さと計算効率にもかかわらず、現在のロジットベースの手法は過信問題に弱いため、予測バイアスにつながる。
予測バイアスを低減するためにデータ依存正規化を適用したMaNoを提案し,正規化ロジットの行列の$L_p$ノルムを推定スコアとする。
論文 参考訳(メタデータ) (2024-05-29T10:45:06Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Improved OOD Generalization via Conditional Invariant Regularizer [43.62211060412388]
クラスラベルが与えられた場合、スプリアス属性の条件付き独立モデルがOOD一般であることが示される。
このような条件独立度を測定するために,OOD誤差を制御する計量条件変分(CSV)を提案する。
この問題を解決するために,ミニケーブ収束率のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-14T06:34:21Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Beyond Marginal Uncertainty: How Accurately can Bayesian Regression
Models Estimate Posterior Predictive Correlations? [13.127549105535623]
入力位置の異なる関数値間の予測的相関を推定することは、しばしば有用である。
まず、後続の予測相関に依存する下流タスクについて考察する:トランスダクティブアクティブラーニング(TAL)
TALは高価で間接的にアルゴリズムの開発を誘導できないため、予測相関をより直接的に評価する2つの指標を導入する。
論文 参考訳(メタデータ) (2020-11-06T03:48:59Z) - Latent Causal Invariant Model [128.7508609492542]
現在の教師付き学習は、データ適合プロセス中に急激な相関を学習することができる。
因果予測を求める潜在因果不変モデル(LaCIM)を提案する。
論文 参考訳(メタデータ) (2020-11-04T10:00:27Z) - Learning Causal Semantic Representation for Out-of-Distribution
Prediction [125.38836464226092]
因果推論に基づく因果意味生成モデル(CSG)を提案し,その2つの要因を別々にモデル化する。
CSGはトレーニングデータに適合させることで意味的因子を識別できることを示し、この意味的識別はOOD一般化誤差の有界性を保証する。
論文 参考訳(メタデータ) (2020-11-03T13:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。