論文の概要: Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training
- arxiv url: http://arxiv.org/abs/2506.09433v1
- Date: Wed, 11 Jun 2025 06:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.586804
- Title: Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training
- Title(参考訳): 因果性を考慮した後評価によるLCMのスパーラス相関の緩和
- Authors: Shurui Gui, Shuiwang Ji,
- Abstract要約: 大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。
ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。
公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
- 参考スコア(独自算出の注目度): 57.03005244917803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have demonstrated remarkable capabilities in language modeling, recent studies reveal that they often fail on out-of-distribution (OOD) samples due to spurious correlations acquired during pre-training. Here, we aim to mitigate such spurious correlations through causality-aware post-training (CAPT). By decomposing a biased prediction into two unbiased steps, known as \textit{event estimation} and \textit{event intervention}, we reduce LLMs' pre-training biases without incurring additional fine-tuning biases, thus enhancing the model's generalization ability. Experiments on the formal causal inference benchmark CLadder and the logical reasoning dataset PrOntoQA show that 3B-scale language models fine-tuned with CAPT can outperform both traditional SFT and larger LLMs on in-distribution (ID) and OOD tasks using only 100 ID fine-tuning samples, demonstrating the effectiveness and sample efficiency of CAPT.
- Abstract(参考訳): 大規模言語モデル (LLM) は言語モデリングにおいて顕著な能力を示してきたが、最近の研究では、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルでしばしば失敗することが示されている。
ここでは、因果認識後トレーニング(CAPT)を通じて、このような素早い相関を緩和することを目的としている。
バイアス予測を「textit{event Estimation}」と「textit{event intervention}」と呼ばれる2つの非バイアスステップに分解することにより、LLMの事前学習バイアスを、追加の微調整バイアスを発生させることなく低減し、モデルの一般化能力を高める。
公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMをin-distriion(ID)およびOODタスクで100 IDの微調整サンプルで上回り、CAPTの有効性とサンプル効率を実証できることが示された。
関連論文リスト
- The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment [32.12998469814097]
大規模言語モデル(LLM)のバイアスを効果的に軽減するために,正面調整に基づく新たな因果的プロンプト手法を提案する。
実験結果から,提案手法は7つの自然言語処理データセットにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-05T07:47:34Z) - Mitigating Biases of Large Language Models in Stance Detection with Counterfactual Augmented Calibration [43.02857908228108]
大規模言語モデル (LLM) は、スタンス検出を含む様々な自然言語処理タスクにおいて顕著な進歩を示している。
姿勢検出におけるそれらの性能は、データ駆動性に起因するバイアスと刺激的な相関によって制限される。
本稿では,LCMの姿勢予測における潜在的なバイアスをキャリブレーションする新たなキャリブレーションネットワークであるFACTUALを提案する。
論文 参考訳(メタデータ) (2024-02-22T05:17:49Z) - Counterfactual Adversarial Learning with Representation Interpolation [11.843735677432166]
本稿では,逆境因果関係の観点から問題に取り組むために,対人関係訓練の枠組みを導入する。
実験により、CATは異なる下流タスク間でSOTAよりも大幅にパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2021-09-10T09:23:08Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。