論文の概要: Are Domain Generalization Benchmarks with Accuracy on the Line Misspecified?
- arxiv url: http://arxiv.org/abs/2504.00186v3
- Date: Sat, 02 Aug 2025 22:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:56.577844
- Title: Are Domain Generalization Benchmarks with Accuracy on the Line Misspecified?
- Title(参考訳): ドメイン一般化ベンチマークは、行の精度を誤っているか?
- Authors: Olawale Salaudeen, Nicole Chiou, Shiny Weng, Sanmi Koyejo,
- Abstract要約: モデルが活用できる不安定な統計的ショートカットである鮮やかな相関は、性能のアウト・オブ・ディストリビューションを低下させると予想される。
現状の実践は、排除しようとする刺激的なシグナルを真に強調することなく、"ロバスト性"を評価することを示しています。
- 参考スコア(独自算出の注目度): 11.534630666670568
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Spurious correlations, unstable statistical shortcuts a model can exploit, are expected to degrade performance out-of-distribution (OOD). However, across many popular OOD generalization benchmarks, vanilla empirical risk minimization (ERM) often achieves the highest OOD accuracy. Moreover, gains in in-distribution accuracy generally improve OOD accuracy, a phenomenon termed accuracy on the line, which contradicts the expected harm of spurious correlations. We show that these observations are an artifact of misspecified OOD datasets that do not include shifts in spurious correlations that harm OOD generalization, the setting they are meant to evaluate. Consequently, current practice evaluates "robustness" without truly stressing the spurious signals we seek to eliminate; our work pinpoints when that happens and how to fix it. Contributions. (i) We derive necessary and sufficient conditions for a distribution shift to reveal a model's reliance on spurious features; when these conditions hold, "accuracy on the line" disappears. (ii) We audit leading OOD datasets and find that most still display accuracy on the line, suggesting they are misspecified for evaluating robustness to spurious correlations. (iii) We catalog the few well-specified datasets and summarize generalizable design principles, such as identifying datasets of natural interventions (e.g., a pandemic), to guide future well-specified benchmarks.
- Abstract(参考訳): モデルが活用できる不安定な統計的ショートカットである純粋相関は、性能のアウト・オブ・ディストリビューション(OOD)を低下させると予想される。
しかしながら、多くの一般的なOOD一般化ベンチマークでは、バニラ経験的リスク最小化(ERM)が最も高いOOD精度を達成することが多い。
さらに、分配精度の上昇は一般的にOOD精度を向上するが、これは線上の精度と呼ばれる現象であり、この現象はスプリアス相関の期待される害と矛盾する。
これらの観測は,OODの一般化を損なうような相関関係の変化を含まない,不特定なOODデータセットの人工物であることを示す。
その結果、現在のプラクティスでは、私たちが排除しようとしている刺激的なシグナルを真に強調することなく、"ロバストネス"を評価しています。
貢献。
一 急激な特徴への依存を明らかにするためには、流通シフトに必要な十分な条件を導出し、これらの条件が成立すると、「ライン上の正確性」が消滅する。
(II) OODデータセットを評価した結果、ほとんどの場合まだ精度が低いことが判明し、相関関係を刺激するためにロバスト性を評価するために不明確であることが示唆された。
(iii) 特定された数少ないデータセットをカタログ化し、自然介入(例えばパンデミック)のデータセットを識別するなど、一般的な設計原則を要約し、将来の特定されたベンチマークを導出する。
関連論文リスト
- Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - Mitigating Spurious Correlations via Disagreement Probability [4.8884049398279705]
経験的リスク最小化(ERM)で訓練されたモデルは、ターゲットラベルとバイアス属性の急激な相関に偏りがちである。
すべてのデータサンプルのモデル性能を堅牢に向上する訓練目標を導入する。
次に, バイアスラベルを必要としない脱バイアス法DPR(Disagreement Probability based Resampling for Debiasing)を導出する。
論文 参考訳(メタデータ) (2024-11-04T02:44:04Z) - Accuracy on the wrong line: On the pitfalls of noisy data for out-of-distribution generalisation [70.36344590967519]
ノイズの多いデータやニュアンスの特徴は,その正確さを損なうのに十分であることを示す。
ノイズの多いデータとノイズのある特徴を持つ合成データセットと実データセットの両方で、この現象を実証する。
論文 参考訳(メタデータ) (2024-06-27T09:57:31Z) - Assessing Model Generalization in Vicinity [34.86022681163714]
本稿では, 分布外テストセットにおける分類モデルの一般化能力について, 基礎的真理ラベルに依存することなく評価する。
そこで本研究では,各試料の正当性評価に,隣り合う試験試料からの応答を取り入れることを提案する。
結果のスコアは、すべてのテストサンプルで平均化され、モデル精度の全体像が示される。
論文 参考訳(メタデータ) (2024-06-13T15:58:37Z) - MANO: Exploiting Matrix Norm for Unsupervised Accuracy Estimation Under Distribution Shifts [25.643876327918544]
モデルのアウトプット、特にロジットを活用することは、トレーニング済みニューラルネットワークのテスト精度を、アウト・オブ・ディストリビューションのサンプルで推定する一般的なアプローチである。
実装の容易さと計算効率にもかかわらず、現在のロジットベースの手法は過信問題に弱いため、予測バイアスにつながる。
予測バイアスを低減するためにデータ依存正規化を適用したMaNoを提案し,正規化ロジットの行列の$L_p$ノルムを推定スコアとする。
論文 参考訳(メタデータ) (2024-05-29T10:45:06Z) - Mixture Data for Training Cannot Ensure Out-of-distribution Generalization [21.801115344132114]
トレーニングデータのサイズが大きくなると、必ずしもテスト一般化誤差が減少するとは限らない。
本研究では,OODデータを混合学習データの凸内外にあるデータとして定量的に再定義する。
新たなリスクバウンドの証明は、よく訓練されたモデルの有効性が、目に見えないデータに対して保証されることに同意する。
論文 参考訳(メタデータ) (2023-12-25T11:00:38Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line [65.14099135546594]
最近のテスト時間適応 (TTA) 法は, モデルに非常に弱い相関関係を示すシフトであっても, ACL と AGL の傾向を大幅に強化する。
この結果から,TTAとAGLに基づく推定手法を組み合わせることで,より広い分布シフトの集合に対する高精度なモデルOOD性能を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-10-07T23:21:25Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Free Lunch for Generating Effective Outlier Supervision [46.37464572099351]
本稿では, ほぼ現実的な外乱監視を実現するための超効率的な手法を提案する。
提案したtextttBayesAug は,従来の方式に比べて偽陽性率を 12.50% 以上削減する。
論文 参考訳(メタデータ) (2023-01-17T01:46:45Z) - Calibrated ensembles can mitigate accuracy tradeoffs under distribution
shift [108.30303219703845]
ID校正アンサンブルは,IDとOODの精度で,先行技術(自己学習に基づく)より優れていた。
我々は,この手法をスタイリングされた環境で解析し,IDとOODの両方をうまく処理するためのアンサンブルの2つの重要な条件を同定する。
論文 参考訳(メタデータ) (2022-07-18T23:14:44Z) - Improved OOD Generalization via Conditional Invariant Regularizer [43.62211060412388]
クラスラベルが与えられた場合、スプリアス属性の条件付き独立モデルがOOD一般であることが示される。
このような条件独立度を測定するために,OOD誤差を制御する計量条件変分(CSV)を提案する。
この問題を解決するために,ミニケーブ収束率のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-14T06:34:21Z) - Agreement-on-the-Line: Predicting the Performance of Neural Networks
under Distribution Shift [18.760716606922482]
類似しているが驚くべき現象が、ニューラルネットワークの分類器のペア間の一致にも現れている。
我々の予測アルゴリズムは、ライン上の合意が保持されるシフトと、ライン上の正確性がない場合の両方において、従来の手法よりも優れています。
論文 参考訳(メタデータ) (2022-06-27T07:50:47Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Unveiling Project-Specific Bias in Neural Code Models [20.131797671630963]
大規模言語モデル(LLM)ベースのニューラルネットワークモデルは、実際のプロジェクト間アウトオブディストリビューション(OOD)データに効果的に一般化するのに苦労することが多い。
この現象は, 地中真実の証拠ではなく, プロジェクト固有のショートカットによる予測に大きく依存していることが示唆された。
サンプル間の潜在論理関係を利用してモデルの学習行動を規則化する新しいバイアス緩和機構を提案する。
論文 参考訳(メタデータ) (2022-01-19T02:09:48Z) - Provably Robust Detection of Out-of-distribution Data (almost) for free [124.14121487542613]
ディープニューラルネットワークは、アウト・オブ・ディストリビューション(OOD)データに対する高い過度な予測を生成することが知られている。
本稿では,認証可能なOOD検出器を標準分類器と組み合わせてOOD認識分類器を提案する。
このようにして、我々は2つの世界のベストを達成している。OOD検出は、分布内に近いOODサンプルであっても、予測精度を損なうことなく、非操作型OODデータに対する最先端のOOD検出性能に近接する。
論文 参考訳(メタデータ) (2021-06-08T11:40:49Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Learn what you can't learn: Regularized Ensembles for Transductive
Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。
本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。
本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:55:13Z) - Beyond Marginal Uncertainty: How Accurately can Bayesian Regression
Models Estimate Posterior Predictive Correlations? [13.127549105535623]
入力位置の異なる関数値間の予測的相関を推定することは、しばしば有用である。
まず、後続の予測相関に依存する下流タスクについて考察する:トランスダクティブアクティブラーニング(TAL)
TALは高価で間接的にアルゴリズムの開発を誘導できないため、予測相関をより直接的に評価する2つの指標を導入する。
論文 参考訳(メタデータ) (2020-11-06T03:48:59Z) - Latent Causal Invariant Model [128.7508609492542]
現在の教師付き学習は、データ適合プロセス中に急激な相関を学習することができる。
因果予測を求める潜在因果不変モデル(LaCIM)を提案する。
論文 参考訳(メタデータ) (2020-11-04T10:00:27Z) - Learning Causal Semantic Representation for Out-of-Distribution
Prediction [125.38836464226092]
因果推論に基づく因果意味生成モデル(CSG)を提案し,その2つの要因を別々にモデル化する。
CSGはトレーニングデータに適合させることで意味的因子を識別できることを示し、この意味的識別はOOD一般化誤差の有界性を保証する。
論文 参考訳(メタデータ) (2020-11-03T13:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。