論文の概要: Attuned to Change: Causal Fine-Tuning under Latent-Confounded Shifts
- arxiv url: http://arxiv.org/abs/2410.14375v2
- Date: Thu, 12 Jun 2025 20:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 15:41:30.994614
- Title: Attuned to Change: Causal Fine-Tuning under Latent-Confounded Shifts
- Title(参考訳): 変革への注視 - 潜伏した確立したシフトの下での因果的微調整
- Authors: Jialin Yu, Yuxiang Zhou, Yulan He, Nevin L. Zhang, Junchi Yu, Philip Torr, Ricardo Silva,
- Abstract要約: 遅れた構築されたシフトに適応することは、現代AIにおける中核的な課題である。
1つの実用的障害モードは、構築されたデータに基づいて訓練済みの基礎モデルを微調整するときに発生する。
我々は、因果微調整を識別問題として捉え、入力を低レベルなスプリアス特徴に分解する明示的な因果モデルを示す。
- 参考スコア(独自算出の注目度): 32.989526411946606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting to latent-confounded shifts remains a core challenge in modern AI. These shifts are propagated via latent variables that induce spurious, non-transportable correlations between inputs and labels. One practical failure mode arises when fine-tuning pre-trained foundation models on confounded data (e.g., where certain text tokens or image backgrounds spuriously correlate with the label), leaving models vulnerable at deployment. We frame causal fine-tuning as an identification problem and pose an explicit causal model that decomposes inputs into low-level spurious features and high-level causal representations. Under this family of models, we formalize the assumptions required for identification. Using pre-trained language models as a case study, we show how identifying and adjusting these components during causal fine-tuning enables automatic adaptation to latent-confounded shifts at test time. Experiments on semi-synthetic benchmarks derived from real-world problems demonstrate that our method outperforms black-box domain generalization baselines, illustrating the benefits of explicitly modeling causal structure.
- Abstract(参考訳): 遅れた構築されたシフトに適応することは、現代AIにおける中核的な課題である。
これらのシフトは潜伏変数によって伝播され、入力とラベルの間の急激で非輸送性のある相関が引き起こされる。
例えば、特定のテキストトークンや画像背景がラベルと急激な相関関係にある場合、デプロイ時に脆弱なモデルを残す。
我々は、因果微調整を識別問題として捉え、入力を低レベルなスプリアス特徴と高レベルな因果表現に分解する明示的な因果モデルを示す。
このモデルの族の下で、同定に必要な仮定を形式化する。
予備学習言語モデルを用いて、因果微調整中にこれらのコンポーネントを識別・調整することで、テスト時に潜在構成シフトに自動的に適応できることを示す。
実世界の問題から得られた半合成ベンチマーク実験により,本手法はブラックボックス領域の一般化ベースラインよりも優れており,因果構造を明示的にモデル化する利点が示される。
関連論文リスト
- Causal Representation-Based Domain Generalization on Gaze Estimation [10.283904882611463]
本稿では,迷路推定フレームワークを用いた因果表現に基づく領域一般化を提案する。
我々は、ドメイン不変の特徴を抽出するために、逆行訓練法と追加の罰則項を用いる。
これらのモジュールを活用することで、CauGEはニューラルネットワークが因果メカニズムの一般的な原則を満たす表現から学ぶことを保証します。
論文 参考訳(メタデータ) (2024-08-30T01:45:22Z) - Causally Inspired Regularization Enables Domain General Representations [14.036422506623383]
異なるドメイン/ディストリビューション間で共有されるデータ生成プロセスを表す因果グラフが与えられた場合、十分なグラフで実装された条件付き独立性は、ドメイン一般(非スパージャ)の特徴表現を識別することができる。
本稿では,素早い特徴の事前知識(あるいはプロキシ)を伴わないドメイン汎用特徴表現の同定に十分であることを示す,正規化を伴う新しいフレームワークを提案する。
提案手法は、合成データと実世界のデータの両方に有効であり、平均および最悪のドメイン転送精度で、他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-04-25T01:33:55Z) - DIGIC: Domain Generalizable Imitation Learning by Causal Discovery [69.13526582209165]
因果性は機械学習と組み合わせて、ドメインの一般化のための堅牢な表現を生成する。
我々は、実証データ分布を活用して、ドメインの一般化可能なポリシーの因果的特徴を発見するために、異なる試みを行っている。
DIGICと呼ばれる新しいフレームワークを設計し、実演データ分布から専門家行動の直接的な原因を見出すことにより因果的特徴を識別する。
論文 参考訳(メタデータ) (2024-02-29T07:09:01Z) - Normalization Perturbation: A Simple Domain Generalization Method for
Real-World Domain Shifts [133.99270341855728]
実世界のドメインスタイルは環境の変化やセンサノイズによって大きく変化する可能性がある。
深層モデルはトレーニングドメインスタイルしか知らない。
このドメインスタイルのオーバーフィット問題を解決するために,正規化摂動を提案する。
論文 参考訳(メタデータ) (2022-11-08T17:36:49Z) - GCISG: Guided Causal Invariant Learning for Improved Syn-to-real
Generalization [1.2215956380648065]
人工的に生成されたデータを用いたディープラーニングモデルのトレーニングは、トレーニングデータが不足している場合の代替となる可能性がある。
本稿では,データ生成のための因果的枠組みを用いて,領域ギャップを特徴付ける。
そこで本研究では,構文から現実への一般化を促進するスタイル不変表現の学習をモデルに促す因果不変学習を提案する。
論文 参考訳(メタデータ) (2022-08-22T02:39:05Z) - Self-balanced Learning For Domain Generalization [64.99791119112503]
ドメインの一般化は、モデルが未知の統計を持つ対象のドメインに一般化できるように、マルチドメインのソースデータの予測モデルを学ぶことを目的としている。
既存のアプローチのほとんどは、ソースデータがドメインとクラスの両方の観点からバランスよく調整されているという前提の下で開発されている。
本稿では,多領域ソースデータの分布の違いによるバイアスを軽減するために,損失の重み付けを適応的に学習する自己均衡型領域一般化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-31T03:17:54Z) - Posterior Differential Regularization with f-divergence for Improving
Model Robustness [95.05725916287376]
クリーン入力とノイズ入力のモデル後部差を規則化する手法に着目する。
後微分正則化を$f$-divergencesの族に一般化する。
実験の結果, 後方微分を$f$-divergenceで正規化することで, モデルロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:58:01Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z) - Learning to Learn with Variational Information Bottleneck for Domain
Generalization [128.90691697063616]
ドメイン一般化モデルは、これまで見つからなかった領域に一般化することを学ぶが、予測の不確実性とドメインシフトに悩まされる。
ドメイン一般化のための確率論的メタラーニングモデルを導入し、ドメイン間で共有されるパラメータを分布としてモデル化する。
ドメインシフトに対処するため、メタ変動情報ボトルネックという提案原則を用いてドメイン不変表現を学習し、メタVIBと呼ぶ。
論文 参考訳(メタデータ) (2020-07-15T12:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。