論文の概要: Spurious Correlation Learning in Preference Optimization: Mechanisms, Consequences, and Mitigation via Tie Training
- arxiv url: http://arxiv.org/abs/2605.11134v1
- Date: Mon, 11 May 2026 18:41:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.363036
- Title: Spurious Correlation Learning in Preference Optimization: Mechanisms, Consequences, and Mitigation via Tie Training
- Title(参考訳): 選好最適化における純粋相関学習--ティートレーニングによるメカニズム, 結果, 緩和
- Authors: Christian Moya, Alex Semendinger, Guang Lin, Elliott Thornley,
- Abstract要約: 標準の嗜好学習は,2つのチャンネルを通じて,人口レベルでの素早い特徴に頼っていることを示す。
同じトレーニングディストリビューションからのより多くのデータは、スプリアス機能へのモデルの依存を減らすのに失敗する。
本稿では,データ駆動型正規化の導入にタイを用いたデータ拡張戦略であるタイトレーニングを提案する。
- 参考スコア(独自算出の注目度): 7.233235686245656
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Preference learning methods such as Direct Preference Optimization (DPO) are known to induce reliance on spurious correlations, leading to sycophancy and length bias in today's language models and potentially severe goal misgeneralization in future systems. In this work, we provide a unified theoretical analysis of this phenomenon, characterizing the mechanisms of spurious learning, its consequences on deployment, and a provable mitigation strategy. Focusing on log-linear policies, we show that standard preference-learning objectives induce reliance on spurious features at the population level through two channels: mean spurious bias and causal--spurious correlation leakage. We then show that this reliance creates an irreducible vulnerability to distribution shift: more data from the same training distribution fails to reduce the model's dependence on spurious features. To address this, we propose tie training, a data augmentation strategy using ties (equal-utility preference pairs) to introduce data-driven regularization. We demonstrate that this approach selectively reduces spurious learning without degrading causal learning. Finally, we validate our theory on log-linear models and provide empirical evidence that both the spurious learning mechanisms and the benefits of tie training persist for neural networks and large language models.
- Abstract(参考訳): 直接選好最適化(DPO)のような選好学習手法は、急激な相関に頼っていることが知られており、今日の言語モデルにおける語彙や長さの偏りや、将来のシステムにおける潜在的に厳しい目標の一般化をもたらす。
本研究では、この現象の統一的理論的解析を行い、素早い学習のメカニズム、展開に対する影響、そして証明可能な緩和戦略を特徴付ける。
ログリニア政策に着目して、標準の嗜好学習目標が、平均的なスパイラルバイアスと因果相関リークという2つのチャンネルを通して、人口レベルでのスパイラルな特徴に依存していることを示す。
次に、この依存が分散シフトに対する既約の脆弱性を生じさせることを示す。同じトレーニングディストリビューションからのより多くのデータが、刺激的な機能へのモデルの依存を減らすのに失敗する。
そこで本研究では、データ駆動型正規化を導入するために、ネクタイ(equal-utility preference pairs)を用いたデータ強化戦略であるタイトレーニングを提案する。
本手法は,因果学習を劣化させることなく,素因学習を選択的に削減できることを実証する。
最後に, 対数線形モデルの理論を検証し, ニューラルネットワークや大規模言語モデルにおいて, 突発的な学習機構とタイトレーニングの利点が持続することを示す実証的証拠を提供する。
関連論文リスト
- Improving Group Robustness on Spurious Correlation via Evidential Alignment [26.544938760265136]
ディープニューラルネットワークは、しばしば急激な相関、すなわち非因果的特徴と標的の間の表面的関連を学習し、依存する。
既存のメソッドは通常、外部のグループアノテーションや補助的な決定論的モデルを使用することでこの問題を軽減する。
偏りのあるモデルの振る舞いを理解するために不確実性定量化を利用する新しいフレームワークであるエビデンシャルアライメントを提案する。
論文 参考訳(メタデータ) (2025-06-12T22:47:21Z) - Temporal-Difference Variational Continual Learning [77.92320830700797]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Mitigating Distribution Shift in Model-based Offline RL via Shifts-aware Reward Learning [36.01269673940484]
本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。
我々の理論的および実証的研究は、これらの要因がどのように価値推定と政策最適化を歪めているかを明らかにする。
我々は、バニラ報酬を改良し、価値学習を洗練させ、政策訓練を促進する統一確率的推論フレームワークを通じて、新しいシフトアウェア報酬を導出する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - Revisiting Spurious Correlation in Domain Generalization [12.745076668687748]
データ生成プロセスにおける因果関係を記述するために,構造因果モデル(SCM)を構築した。
さらに、スプリアス相関に基づくメカニズムを徹底的に分析する。
そこで本研究では,OOD一般化における共起バイアスの制御について,相対性スコア重み付き推定器を導入して提案する。
論文 参考訳(メタデータ) (2024-06-17T13:22:00Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。