論文の概要: Fine-Tuning Pre-trained Language Models for Robust Causal Representation Learning
- arxiv url: http://arxiv.org/abs/2410.14375v1
- Date: Fri, 18 Oct 2024 11:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:37.436814
- Title: Fine-Tuning Pre-trained Language Models for Robust Causal Representation Learning
- Title(参考訳): ロバスト因果表現学習のための微調整事前学習言語モデル
- Authors: Jialin Yu, Yuxiang Zhou, Yulan He, Nevin L. Zhang, Ricardo Silva,
- Abstract要約: プレトレーニング言語モデル(PLM)の微調整は、様々な領域で有効であることが示されている。
本研究では, 分解仮定に基づいて, いわゆる因果前ドア調整によりロバスト表現を導出可能であることを示す。
そこで本研究では,表現学習に微調整機構と因果関係を導入することにより,領域一般化問題に光を当てる。
- 参考スコア(独自算出の注目度): 26.29386609645171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The fine-tuning of pre-trained language models (PLMs) has been shown to be effective across various domains. By using domain-specific supervised data, the general-purpose representation derived from PLMs can be transformed into a domain-specific representation. However, these methods often fail to generalize to out-of-domain (OOD) data due to their reliance on non-causal representations, often described as spurious features. Existing methods either make use of adjustments with strong assumptions about lack of hidden common causes, or mitigate the effect of spurious features using multi-domain data. In this work, we investigate how fine-tuned pre-trained language models aid generalizability from single-domain scenarios under mild assumptions, targeting more general and practical real-world scenarios. We show that a robust representation can be derived through a so-called causal front-door adjustment, based on a decomposition assumption, using fine-tuned representations as a source of data augmentation. Comprehensive experiments in both synthetic and real-world settings demonstrate the superior generalizability of the proposed method compared to existing approaches. Our work thus sheds light on the domain generalization problem by introducing links between fine-tuning and causal mechanisms into representation learning.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)の微調整は、様々な領域で有効であることが示されている。
ドメイン固有教師付きデータを使用することで、PLMから派生した汎用表現をドメイン固有表現に変換することができる。
しかし、これらの手法はしばしば、非因果表現に依存しているため、ドメイン外データ(OOD)への一般化に失敗する。
既存の手法では、隠れた共通原因の欠如に関する強い仮定による調整を利用するか、あるいはマルチドメインデータを使用した突発的特徴の影響を軽減するかのいずれかである。
本研究では,より汎用的で実用的な実世界のシナリオをターゲットとした,微調整済み言語モデルが単一ドメインシナリオからの一般化可能性にどのように役立つかを検討する。
データ拡張の源として細調整された表現を用いて、分解仮定に基づいて、ロバストな表現を、いわゆる因果フロントドア調整によって導出できることが示される。
合成と実世界の双方における総合的な実験により,提案手法の既存手法よりも優れた一般化性を示した。
そこで本研究では,表現学習に微調整機構と因果関係を導入することにより,領域一般化問題に光を当てる。
関連論文リスト
- Improving Group Robustness on Spurious Correlation via Evidential Alignment [26.544938760265136]
ディープニューラルネットワークは、しばしば急激な相関、すなわち非因果的特徴と標的の間の表面的関連を学習し、依存する。
既存のメソッドは通常、外部のグループアノテーションや補助的な決定論的モデルを使用することでこの問題を軽減する。
偏りのあるモデルの振る舞いを理解するために不確実性定量化を利用する新しいフレームワークであるエビデンシャルアライメントを提案する。
論文 参考訳(メタデータ) (2025-06-12T22:47:21Z) - Solving Inverse Problems with FLAIR [59.02385492199431]
フローベースの潜在生成モデルは、驚くべき品質の画像を生成でき、テキスト・ツー・イメージ生成も可能である。
本稿では,フローベース生成モデルを逆問題の前兆として活用する新しい学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Adversarial Transferability in Deep Denoising Models: Theoretical Insights and Robustness Enhancement via Out-of-Distribution Typical Set Sampling [6.189440665620872]
深層学習に基づく画像認識モデルは優れた性能を示すが、ロバストネス分析の欠如は依然として重要な懸念点である。
主な問題は、これらのモデルが敵攻撃の影響を受けやすいことである。
本稿では,新たな対人防御手法であるOut-of-Distribution typical Set Smpling Training戦略を提案する。
論文 参考訳(メタデータ) (2024-12-08T13:47:57Z) - Causal Representation-Based Domain Generalization on Gaze Estimation [10.283904882611463]
本稿では,迷路推定フレームワークを用いた因果表現に基づく領域一般化を提案する。
我々は、ドメイン不変の特徴を抽出するために、逆行訓練法と追加の罰則項を用いる。
これらのモジュールを活用することで、CauGEはニューラルネットワークが因果メカニズムの一般的な原則を満たす表現から学ぶことを保証します。
論文 参考訳(メタデータ) (2024-08-30T01:45:22Z) - Demystifying amortized causal discovery with transformers [21.058343547918053]
観測データからの因果発見のための教師付き学習アプローチは、しばしば競争性能を達成する。
本研究では,CSIvAについて検討する。CSIvAは,合成データのトレーニングと実データへの転送を約束するトランスフォーマーモデルである。
既存の識別可能性理論とギャップを埋め、トレーニングデータ分布の制約がテスト観測の事前を暗黙的に定義していることを示します。
論文 参考訳(メタデータ) (2024-05-27T08:17:49Z) - Causally Inspired Regularization Enables Domain General Representations [14.036422506623383]
異なるドメイン/ディストリビューション間で共有されるデータ生成プロセスを表す因果グラフが与えられた場合、十分なグラフで実装された条件付き独立性は、ドメイン一般(非スパージャ)の特徴表現を識別することができる。
本稿では,素早い特徴の事前知識(あるいはプロキシ)を伴わないドメイン汎用特徴表現の同定に十分であることを示す,正規化を伴う新しいフレームワークを提案する。
提案手法は、合成データと実世界のデータの両方に有効であり、平均および最悪のドメイン転送精度で、他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-04-25T01:33:55Z) - Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。
因果表現の識別可能性に寄与する分布シフトのタイプを決定する。
本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文 参考訳(メタデータ) (2024-03-23T04:13:55Z) - DIGIC: Domain Generalizable Imitation Learning by Causal Discovery [69.13526582209165]
因果性は機械学習と組み合わせて、ドメインの一般化のための堅牢な表現を生成する。
我々は、実証データ分布を活用して、ドメインの一般化可能なポリシーの因果的特徴を発見するために、異なる試みを行っている。
DIGICと呼ばれる新しいフレームワークを設計し、実演データ分布から専門家行動の直接的な原因を見出すことにより因果的特徴を識別する。
論文 参考訳(メタデータ) (2024-02-29T07:09:01Z) - Representation Disentaglement via Regularization by Causal
Identification [3.9160947065896803]
本稿では,不整合表現学習における基礎となるデータ生成過程の仮定を記述するために,因果コライダー構造モデルを提案する。
そこで本研究では,大規模生成モデルの挙動を因果同定によって課される絡み合った制約に整合させるモジュール型正規化エンジンReIを提案する。
論文 参考訳(メタデータ) (2023-02-28T23:18:54Z) - Normalization Perturbation: A Simple Domain Generalization Method for
Real-World Domain Shifts [133.99270341855728]
実世界のドメインスタイルは環境の変化やセンサノイズによって大きく変化する可能性がある。
深層モデルはトレーニングドメインスタイルしか知らない。
このドメインスタイルのオーバーフィット問題を解決するために,正規化摂動を提案する。
論文 参考訳(メタデータ) (2022-11-08T17:36:49Z) - GCISG: Guided Causal Invariant Learning for Improved Syn-to-real
Generalization [1.2215956380648065]
人工的に生成されたデータを用いたディープラーニングモデルのトレーニングは、トレーニングデータが不足している場合の代替となる可能性がある。
本稿では,データ生成のための因果的枠組みを用いて,領域ギャップを特徴付ける。
そこで本研究では,構文から現実への一般化を促進するスタイル不変表現の学習をモデルに促す因果不変学習を提案する。
論文 参考訳(メタデータ) (2022-08-22T02:39:05Z) - Certifying Model Accuracy under Distribution Shifts [151.67113334248464]
本稿では,データ分布の有界ワッサースタインシフトの下でのモデルの精度について,証明可能なロバスト性保証を提案する。
変換空間におけるモデルの入力をランダム化する単純な手順は、変換の下での分布シフトに対して確実に堅牢であることを示す。
論文 参考訳(メタデータ) (2022-01-28T22:03:50Z) - Training on Test Data with Bayesian Adaptation for Covariate Shift [96.3250517412545]
ディープニューラルネットワークは、信頼できない不確実性推定で不正確な予測を行うことが多い。
分布シフトの下でのラベルなし入力とモデルパラメータとの明確に定義された関係を提供するベイズモデルを導出する。
本手法は精度と不確実性の両方を向上することを示す。
論文 参考訳(メタデータ) (2021-09-27T01:09:08Z) - Self-balanced Learning For Domain Generalization [64.99791119112503]
ドメインの一般化は、モデルが未知の統計を持つ対象のドメインに一般化できるように、マルチドメインのソースデータの予測モデルを学ぶことを目的としている。
既存のアプローチのほとんどは、ソースデータがドメインとクラスの両方の観点からバランスよく調整されているという前提の下で開発されている。
本稿では,多領域ソースデータの分布の違いによるバイアスを軽減するために,損失の重み付けを適応的に学習する自己均衡型領域一般化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-31T03:17:54Z) - Recoding latent sentence representations -- Dynamic gradient-based
activation modification in RNNs [0.0]
RNNでは、サブオプティマティックな方法で情報をエンコーディングすることは、シーケンスの後の要素に基づいて表現の質に影響を与える可能性がある。
勾配に基づく補正機構を用いて,標準RNNへの拡張を提案する。
言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
論文 参考訳(メタデータ) (2021-01-03T17:54:17Z) - Posterior Differential Regularization with f-divergence for Improving
Model Robustness [95.05725916287376]
クリーン入力とノイズ入力のモデル後部差を規則化する手法に着目する。
後微分正則化を$f$-divergencesの族に一般化する。
実験の結果, 後方微分を$f$-divergenceで正規化することで, モデルロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:58:01Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z) - Structural Causal Models Are (Solvable by) Credal Networks [70.45873402967297]
因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。
この貢献は, 干潟ネットワークによる構造因果モデルを表現するための体系的なアプローチと見なされるべきである。
実験により, 実規模問題における因果推論には, クレーダルネットワークの近似アルゴリズムがすぐに利用できることがわかった。
論文 参考訳(メタデータ) (2020-08-02T11:19:36Z) - Learning to Learn with Variational Information Bottleneck for Domain
Generalization [128.90691697063616]
ドメイン一般化モデルは、これまで見つからなかった領域に一般化することを学ぶが、予測の不確実性とドメインシフトに悩まされる。
ドメイン一般化のための確率論的メタラーニングモデルを導入し、ドメイン間で共有されるパラメータを分布としてモデル化する。
ドメインシフトに対処するため、メタ変動情報ボトルネックという提案原則を用いてドメイン不変表現を学習し、メタVIBと呼ぶ。
論文 参考訳(メタデータ) (2020-07-15T12:05:52Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。