論文の概要: Fine-Tuning Pre-trained Language Models for Robust Causal Representation Learning
- arxiv url: http://arxiv.org/abs/2410.14375v1
- Date: Fri, 18 Oct 2024 11:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:41.088742
- Title: Fine-Tuning Pre-trained Language Models for Robust Causal Representation Learning
- Title(参考訳): ロバスト因果表現学習のための微調整事前学習言語モデル
- Authors: Jialin Yu, Yuxiang Zhou, Yulan He, Nevin L. Zhang, Ricardo Silva,
- Abstract要約: プレトレーニング言語モデル(PLM)の微調整は、様々な領域で有効であることが示されている。
本研究では, 分解仮定に基づいて, いわゆる因果前ドア調整によりロバスト表現を導出可能であることを示す。
そこで本研究では,表現学習に微調整機構と因果関係を導入することにより,領域一般化問題に光を当てる。
- 参考スコア(独自算出の注目度): 26.29386609645171
- License:
- Abstract: The fine-tuning of pre-trained language models (PLMs) has been shown to be effective across various domains. By using domain-specific supervised data, the general-purpose representation derived from PLMs can be transformed into a domain-specific representation. However, these methods often fail to generalize to out-of-domain (OOD) data due to their reliance on non-causal representations, often described as spurious features. Existing methods either make use of adjustments with strong assumptions about lack of hidden common causes, or mitigate the effect of spurious features using multi-domain data. In this work, we investigate how fine-tuned pre-trained language models aid generalizability from single-domain scenarios under mild assumptions, targeting more general and practical real-world scenarios. We show that a robust representation can be derived through a so-called causal front-door adjustment, based on a decomposition assumption, using fine-tuned representations as a source of data augmentation. Comprehensive experiments in both synthetic and real-world settings demonstrate the superior generalizability of the proposed method compared to existing approaches. Our work thus sheds light on the domain generalization problem by introducing links between fine-tuning and causal mechanisms into representation learning.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)の微調整は、様々な領域で有効であることが示されている。
ドメイン固有教師付きデータを使用することで、PLMから派生した汎用表現をドメイン固有表現に変換することができる。
しかし、これらの手法はしばしば、非因果表現に依存しているため、ドメイン外データ(OOD)への一般化に失敗する。
既存の手法では、隠れた共通原因の欠如に関する強い仮定による調整を利用するか、あるいはマルチドメインデータを使用した突発的特徴の影響を軽減するかのいずれかである。
本研究では,より汎用的で実用的な実世界のシナリオをターゲットとした,微調整済み言語モデルが単一ドメインシナリオからの一般化可能性にどのように役立つかを検討する。
データ拡張の源として細調整された表現を用いて、分解仮定に基づいて、ロバストな表現を、いわゆる因果フロントドア調整によって導出できることが示される。
合成と実世界の双方における総合的な実験により,提案手法の既存手法よりも優れた一般化性を示した。
そこで本研究では,表現学習に微調整機構と因果関係を導入することにより,領域一般化問題に光を当てる。
関連論文リスト
- Causal Representation-Based Domain Generalization on Gaze Estimation [10.283904882611463]
本稿では,迷路推定フレームワークを用いた因果表現に基づく領域一般化を提案する。
我々は、ドメイン不変の特徴を抽出するために、逆行訓練法と追加の罰則項を用いる。
これらのモジュールを活用することで、CauGEはニューラルネットワークが因果メカニズムの一般的な原則を満たす表現から学ぶことを保証します。
論文 参考訳(メタデータ) (2024-08-30T01:45:22Z) - Causally Inspired Regularization Enables Domain General Representations [14.036422506623383]
異なるドメイン/ディストリビューション間で共有されるデータ生成プロセスを表す因果グラフが与えられた場合、十分なグラフで実装された条件付き独立性は、ドメイン一般(非スパージャ)の特徴表現を識別することができる。
本稿では,素早い特徴の事前知識(あるいはプロキシ)を伴わないドメイン汎用特徴表現の同定に十分であることを示す,正規化を伴う新しいフレームワークを提案する。
提案手法は、合成データと実世界のデータの両方に有効であり、平均および最悪のドメイン転送精度で、他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-04-25T01:33:55Z) - DIGIC: Domain Generalizable Imitation Learning by Causal Discovery [69.13526582209165]
因果性は機械学習と組み合わせて、ドメインの一般化のための堅牢な表現を生成する。
我々は、実証データ分布を活用して、ドメインの一般化可能なポリシーの因果的特徴を発見するために、異なる試みを行っている。
DIGICと呼ばれる新しいフレームワークを設計し、実演データ分布から専門家行動の直接的な原因を見出すことにより因果的特徴を識別する。
論文 参考訳(メタデータ) (2024-02-29T07:09:01Z) - Normalization Perturbation: A Simple Domain Generalization Method for
Real-World Domain Shifts [133.99270341855728]
実世界のドメインスタイルは環境の変化やセンサノイズによって大きく変化する可能性がある。
深層モデルはトレーニングドメインスタイルしか知らない。
このドメインスタイルのオーバーフィット問題を解決するために,正規化摂動を提案する。
論文 参考訳(メタデータ) (2022-11-08T17:36:49Z) - GCISG: Guided Causal Invariant Learning for Improved Syn-to-real
Generalization [1.2215956380648065]
人工的に生成されたデータを用いたディープラーニングモデルのトレーニングは、トレーニングデータが不足している場合の代替となる可能性がある。
本稿では,データ生成のための因果的枠組みを用いて,領域ギャップを特徴付ける。
そこで本研究では,構文から現実への一般化を促進するスタイル不変表現の学習をモデルに促す因果不変学習を提案する。
論文 参考訳(メタデータ) (2022-08-22T02:39:05Z) - Self-balanced Learning For Domain Generalization [64.99791119112503]
ドメインの一般化は、モデルが未知の統計を持つ対象のドメインに一般化できるように、マルチドメインのソースデータの予測モデルを学ぶことを目的としている。
既存のアプローチのほとんどは、ソースデータがドメインとクラスの両方の観点からバランスよく調整されているという前提の下で開発されている。
本稿では,多領域ソースデータの分布の違いによるバイアスを軽減するために,損失の重み付けを適応的に学習する自己均衡型領域一般化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-31T03:17:54Z) - Posterior Differential Regularization with f-divergence for Improving
Model Robustness [95.05725916287376]
クリーン入力とノイズ入力のモデル後部差を規則化する手法に着目する。
後微分正則化を$f$-divergencesの族に一般化する。
実験の結果, 後方微分を$f$-divergenceで正規化することで, モデルロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:58:01Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z) - Learning to Learn with Variational Information Bottleneck for Domain
Generalization [128.90691697063616]
ドメイン一般化モデルは、これまで見つからなかった領域に一般化することを学ぶが、予測の不確実性とドメインシフトに悩まされる。
ドメイン一般化のための確率論的メタラーニングモデルを導入し、ドメイン間で共有されるパラメータを分布としてモデル化する。
ドメインシフトに対処するため、メタ変動情報ボトルネックという提案原則を用いてドメイン不変表現を学習し、メタVIBと呼ぶ。
論文 参考訳(メタデータ) (2020-07-15T12:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。