論文の概要: From Invariant Representations to Invariant Data: Provable Robustness to Spurious Correlations via Noisy Counterfactual Matching
- arxiv url: http://arxiv.org/abs/2505.24843v2
- Date: Mon, 10 Nov 2025 16:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 19:11:14.18214
- Title: From Invariant Representations to Invariant Data: Provable Robustness to Spurious Correlations via Noisy Counterfactual Matching
- Title(参考訳): 不変表現から不変データへ:ノイズ対実整合による確率的ロバスト性から純粋相関
- Authors: Ruqi Bai, Yao Ji, Zeyu Zhou, David I. Inouye,
- Abstract要約: トレーニングデータから急激な相関関係を学習するモデルは、新しい環境にデプロイすると失敗することが多い。
我々は、不変表現の学習から不変データペアの活用へと焦点を移す、データ中心の代替案を提案する。
ノイズの反事実マッチングは、少数の反事実ペアでさえも活用することで、堅牢性を向上させる。
- 参考スコア(独自算出の注目度): 14.679039741833305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Models that learn spurious correlations from training data often fail when deployed in new environments. While many methods aim to learn invariant representations to address this, they often underperform standard empirical risk minimization (ERM). We propose a data-centric alternative that shifts the focus from learning invariant representations to leveraging invariant data pairs -- pairs of samples that should have the same prediction. We prove that certain counterfactuals naturally satisfy this invariance property. Based on this, we introduce Noisy Counterfactual Matching (NCM), a simple constraint-based method that improves robustness by leveraging even a small number of \emph{noisy} counterfactual pairs -- improving upon prior works that do not explicitly consider noise. For linear causal models, we prove that NCM's test-domain error is bounded by its in-domain error plus a term dependent on the counterfactuals' quality and diversity. Experiments on synthetic data validate our theory, and we demonstrate NCM's effectiveness on real-world datasets.
- Abstract(参考訳): トレーニングデータから急激な相関関係を学習するモデルは、新しい環境にデプロイすると失敗することが多い。
多くの手法はこの問題に対処するために不変表現を学習することを目的としているが、標準的な経験的リスク最小化(ERM)を過小評価することが多い。
我々は、不変表現の学習から、同じ予測を持つべきサンプルのペアである不変データペアの活用へと焦点をシフトする、データ中心の代替案を提案する。
ある種の反事実が自然にこの不変性を満たすことを証明する。
そこで本研究では, ノイズを明示的に考慮しない先行作業において, 少数のemph{noisy} 対物ペアさえも活用することにより, 頑健性を向上させるシンプルな制約ベースの手法であるノイズ対物マッチング(NCM)を導入する。
線形因果モデルの場合、NCMのテストドメインエラーは、そのドメイン内エラーと、反ファクトの質と多様性に依存する項によって境界づけられていることを証明する。
合成データに関する実験は、我々の理論を検証し、実世界のデータセット上でのNCMの有効性を実証する。
関連論文リスト
- Robust Gaussian Processes via Relevance Pursuit [17.39376866275623]
本稿では,データポイント固有ノイズレベルを推定することにより,スパースアウトレーヤに対するロバスト性を実現するGPモデルを提案する。
我々は,データポイント固有ノイズ分散において,関連する対数限界確率が強く抑制されるようなパラメータ化が可能であることを,驚くべきことに示している。
論文 参考訳(メタデータ) (2024-10-31T17:59:56Z) - Adapting to Shifting Correlations with Unlabeled Data Calibration [6.84735357291896]
サイト間の分散シフトは、不安定な相関を利用する傾向にあるため、モデル性能を著しく低下させる可能性がある。
本稿では,モデル予測を予測対象と共同設立者間のシフト相関に適応させるフレキシブルな手法であるGeneralized Prevalence Adjustment (GPA)を提案する。
GPAは、これらのサイトからの未ラベルのサンプルを使用して、新しいサイトのターゲットと共同創設者の相互作用を推測することができる。
論文 参考訳(メタデータ) (2024-09-09T18:45:43Z) - ROTI-GCV: Generalized Cross-Validation for right-ROTationally Invariant Data [1.194799054956877]
高次元正規化回帰における2つの重要なタスクは、正確な予測のために正規化強度を調整し、サンプル外リスクを推定することである。
問題のある条件下でクロスバリデーションを確実に行うための新しいフレームワーク ROTI-GCV を導入する。
論文 参考訳(メタデータ) (2024-06-17T15:50:00Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Faithful Heteroscedastic Regression with Neural Networks [2.2835610890984164]
パラメータマップにニューラルネットワークを使用するパラメトリックメソッドは、データ内の複雑な関係をキャプチャすることができる。
ヘテロスセダティックなモデルを生成するために最適化に2つの簡単な修正を加え、ホモスセダティックなモデルとほぼ同等の精度で推定する。
提案手法は,等しくフレキシブルな平均値のみのモデルの精度を維持しつつ,クラスごとの分散キャリブレーションも提供する。
論文 参考訳(メタデータ) (2022-12-18T22:34:42Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Training on Test Data with Bayesian Adaptation for Covariate Shift [96.3250517412545]
ディープニューラルネットワークは、信頼できない不確実性推定で不正確な予測を行うことが多い。
分布シフトの下でのラベルなし入力とモデルパラメータとの明確に定義された関係を提供するベイズモデルを導出する。
本手法は精度と不確実性の両方を向上することを示す。
論文 参考訳(メタデータ) (2021-09-27T01:09:08Z) - Robust Bayesian Inference for Discrete Outcomes with the Total Variation
Distance [5.139874302398955]
離散的に評価された結果のモデルは、データがゼロインフレーション、過分散または汚染を示す場合、容易に誤特定される。
ここでは、Ttal Variation Distance (TVD) を用いた頑健な相違に基づくベイズ的アプローチを提案する。
我々は、我々のアプローチが堅牢で、シミュレーションおよび実世界のデータの範囲で予測性能を著しく改善していることを実証的に実証した。
論文 参考訳(メタデータ) (2020-10-26T09:53:06Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。