論文の概要: Unsupervised Identification and Removal of Spurious Correlations During Fine-Tuning
- arxiv url: http://arxiv.org/abs/2605.27676v1
- Date: Tue, 26 May 2026 20:51:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.515877
- Title: Unsupervised Identification and Removal of Spurious Correlations During Fine-Tuning
- Title(参考訳): 微調整時の無教師付き相関の同定と除去
- Authors: Ciarán M. Gilligan-Lee, Joseph Egan, Yuchen Zhu, Michael O'Riordan,
- Abstract要約: キュレートされたデータセット上で事前訓練された言語モデルを微調整すると、素早い相関が生まれる。
そこで本研究では,LoRAファインチューンの重みから潜伏因子を,監督なしで同定できることを実証した。
本稿では,関連Spurious Patternsのグラディエント・プロジェクションであるGRASPを提案する。
- 参考スコア(独自算出の注目度): 6.800325210654667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning a pretrained language model on a curated dataset can produce spurious correlations between the fine-tuning task and unintended latent factors -- such as misaligned personas or political slant -- that the curation procedure has entangled with the task. The model can latch onto these spurious correlations, leading to bias and reduced out-of-distribution generalisation. We prove that under reasonable assumptions on task complexity and the spurious correlation, such latent factors can be identified, without supervision, from the weights of a naive LoRA fine-tune. Existing approaches to removing bias, such as activation steering, remove identified factors from residual-stream activations, either at inference or during training. We argue, however, that the goal should be to remove the spurious correlation, not the latent factor itself, as the pretrained model may rely on it for genuine task signal. To enable this, we propose GRASP, GRadient projection of Associated Spurious Patterns, which prevents the model from acquiring new reliance on the identified latent factor while preserving any pretrained content along it. We validate on three fine-tuning tasks. The first two involve emergent misalignment, where fine-tuning on a narrow task -- in our case, writing insecure code and giving bad medical advice -- leads to misaligned responses on unrelated topics. Here our method completely removes misalignment in the insecure code case and reduces them by ~5x in the bad medical advice case, beating all baselines in the trade-off between misalignment-reduction and task-preservation. The last is a novel political-bias experiment, where fine-tuning on right-skewed Reddit financial-advice data causes political-lean drift on unrelated topics. Here our method reduces drift by more than half, while improving financial task performance, beating all baselines.
- Abstract(参考訳): キュレートされたデータセット上で事前訓練された言語モデルを微調整することで、微調整タスクと意図しない潜在要因(例えば、不一致のペルソナや政治的スラント)の間に、キュレーション手順がタスクと絡み合っているという急激な相関関係を生み出すことができる。
このモデルはこれらの急激な相関にひっかかることができ、バイアスと分布外一般化を減少させる。
課題複雑性と素因的相関に関する合理的な仮定の下では、そのような潜伏因子は、監督なしに、素早いLORAファインチューンの重みから特定できることを示す。
アクティベーションステアリングのようなバイアスを取り除くための既存のアプローチは、推論中またはトレーニング中、残留ストリームのアクティベーションから特定された要因を除去する。
しかし、事前訓練されたモデルが真のタスク信号に頼っているため、潜在因子自体ではなく、素早い相関を取り除くことが目的であると我々は主張する。
そこで本研究では,関連Spurious Patternsのグラディエント・プロジェクションであるGRASPを提案する。
3つの微調整タスクについて検証する。
最初の2つは創発的なミスアライメントで、狭いタスク -- 安全でないコードを書き、悪い医療アドバイスを与える -- を微調整することで、無関係なトピックに対する誤った対応につながります。
ここでは, 安全性の低いコードケースにおいて, ミスアライメントを完全に除去し, 悪質なアドバイスケースでは5倍程度削減し, ミスアライメントとタスク保存のトレードオフにおいて, ベースラインを全て打ち破る。
最後の実験は政治バイアスに関する新しい実験で、右に曲がったRedditの財務情報を微調整することで、無関係な話題に政治的に偏りを生じさせる。
ここでは,フロートを半分以上削減し,財務タスクのパフォーマンスを向上し,すべてのベースラインを圧倒する手法を提案する。
関連論文リスト
- LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions [60.48458130500911]
本研究は, 緊急不整合が, 安全行動を超えて, より広範な不正行為や詐欺のスペクトルにまで及ぼせるかどうかを, 高リスクシナリオ下で検討する。
さまざまな領域にまたがるミスアライメントの完了について、LLMをオープンソースにしました。
標準下流タスクに1%のミスアライメントデータを導入するだけで、正直な振る舞いを20%以上減らすのに十分であることがわかった。
論文 参考訳(メタデータ) (2025-10-09T13:35:19Z) - Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation [25.195244084313114]
CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。
CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
論文 参考訳(メタデータ) (2025-09-06T05:33:17Z) - TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs [7.125400292079228]
大きな言語モデル(LLM)は、人間の値に合わせるように微調整され、しばしばアライメントドリフトを示す。
以前の作業ではアライメント障害が特徴的だったが、これらの障害の根底にあるトレーニングタイムの信念源についてはほとんど知られていない。
TraceAlignは、モデルのトレーニングコーパスの根本原因に安全でない完了をトレースするための統一されたフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T05:03:35Z) - Improving Group Robustness on Spurious Correlation via Evidential Alignment [26.544938760265136]
ディープニューラルネットワークは、しばしば急激な相関、すなわち非因果的特徴と標的の間の表面的関連を学習し、依存する。
既存のメソッドは通常、外部のグループアノテーションや補助的な決定論的モデルを使用することでこの問題を軽減する。
偏りのあるモデルの振る舞いを理解するために不確実性定量化を利用する新しいフレームワークであるエビデンシャルアライメントを提案する。
論文 参考訳(メタデータ) (2025-06-12T22:47:21Z) - ALBAR: Adversarial Learning approach to mitigate Biases in Action Recognition [52.537021302246664]
行動認識モデルは、しばしば背景バイアス(背景の手がかりに基づく行動の推測)と前景バイアス(主題の外観に依存する)に悩まされる。
本稿では,前景や背景のバイアスを,バイアス特性の専門知識を必要とせずに軽減する,新たな対人訓練手法であるALBARを提案する。
我々は,提案手法を確立された背景と前景のバイアスプロトコル上で評価し,新しい最先端のバイアスプロトコルを設定し,HMDB51では12%以上のデバイアス性能を向上した。
論文 参考訳(メタデータ) (2025-01-31T20:47:06Z) - Single-weight Model Editing for Post-hoc Spurious Correlation Neutralization [54.8794775172033]
ニューラルネットワークのトレーニングは、トレーニング損失を最小限に抑えるショートカットとして、最も単純な機能を利用する傾向がある。
これらの特徴のいくつかは、ターゲットラベルと急激な相関関係があり、モデルによる誤った予測につながる可能性がある。
本稿では,一重の修正を行なえる独特な厳密なクラス除去手法を提案する。
論文 参考訳(メタデータ) (2025-01-24T02:22:42Z) - Robustly Improving Bandit Algorithms with Confounded and Selection
Biased Offline Data: A Causal Approach [18.13887411913371]
本稿では,エージェントが各アームの報酬分布の推定を改善するために使用可能なオフラインデータにアクセス可能な帯域幅問題について検討する。
我々はバイアスを、それらが示唆する因果構造に基づいて、矛盾するバイアスと選択バイアスに分類する。
我々は、偏りのある観測データから、複合バイアスに対して頑健な各腕の因果関係を抽出する。
論文 参考訳(メタデータ) (2023-12-20T03:03:06Z) - Neighborhood Adaptive Estimators for Causal Inference under Network Interference [109.17155002599978]
ネットワークに接続された単位による古典的非干渉仮定の違反について考察する。
トラクタビリティでは、干渉がどのように広がるかを記述する既知のネットワークを考える。
論文 参考訳(メタデータ) (2022-12-07T14:53:47Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。