論文の概要: The Viscosity of Logic: Phase Transitions and Hysteresis in DPO Alignment
- arxiv url: http://arxiv.org/abs/2601.17260v1
- Date: Sat, 24 Jan 2026 02:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.44119
- Title: The Viscosity of Logic: Phase Transitions and Hysteresis in DPO Alignment
- Title(参考訳): 論理の粘性:DPO配向における相転移とヒステリシス
- Authors: Marco Pollanen,
- Abstract要約: 直接選好最適化(DPO)はしばしば、アライメント圧力($$$で制御される)が徐々に「良い」振る舞いをもたらすように調整される。
コントロールパラメータとして$を扱い、固定DPOレシピの下で7Bのオープンウェイトファミリを密に掃除する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimization (DPO) is often tuned as if increasing alignment pressure (controlled by $β$) yields progressively "better" behavior. We instead treat $β$ as a control parameter and densely sweep it for three 7B open-weight families under a fixed DPO recipe. In Mistral, capability is sharply non-monotonic: aggregated logic-probe margins become positive only in a narrow band near $β\approx 10^{-2}$ and revert outside it, with boundary points that are seed-sensitive. Across architectures under the same sweep, we observe qualitatively different response modes: sharp reorganization in Mistral, selective changes in Llama, and smooth trade-offs in Qwen. Critically, the DPO preference margin can anticorrelate with reasoning capability (Pearson $r=-0.91$ for Llama logic), so margin-based selection can prefer capability-impaired models. Training path also matters: exposure to high $β$ induces capability losses that persist even after $β$ is reduced (hysteresis). These findings motivate capability-resolved evaluation across the $β$ landscape rather than reliance on margins or aggregate benchmarks.
- Abstract(参考訳): 直接選好最適化(DPO)はしばしば、アライメント圧力($β$で制御される)が徐々に「良い」振る舞いをもたらすように調整される。
代わりに、$β$を制御パラメータとして扱い、固定DPOレシピの下で7Bのオープンウェイトファミリを密に掃除します。
集約された論理プローブのマージンは、$β\approx 10^{-2}$付近の狭い帯域でのみ正となり、その外側にシードに敏感な境界点を持つ。
ミストラルの急激な再編成、ラマの選択的変化、Qwenのスムーズなトレードオフなどである。
批判的に言えば、DPOの選好マージンは推論能力と反相関する(Pearson $r=-0.91$ for Llama logic)。
高い$β$への露出は、$β$が減った後も持続する能力損失を引き起こす(ヒステリシス)。
これらの結果は、マージンやアグリゲーションベンチマークに依存するのではなく、$β$ランドスケープ全体の能力解決評価を動機付けている。
関連論文リスト
- Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization [0.0]
Margin-Adaptive Direct Preference Optimizationは、安定的で、データ保存、インスタンスレベルのソリューションを提供する。
我々は、MADPOが優れた最適化環境を持っていることを証明し、包括的な理論的解析を行う。
ハイクオリティデータでは+33.3%、低クオリティデータでは+10.5%というパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-10-06T20:09:37Z) - RePO: Understanding Preference Learning Through ReLU-Based Optimization [66.098833436503]
本稿では,ReLUに基づくPreference Optimization (RePO)を提案する。
RePOは、ロジスティック重み付けが二項しきい値に崩壊するSimPOの制限ケース(「infty$」の略)として特徴付けられる。
AlpacaEval 2 と Arena-Hard の実証結果は、RePO が複数のベースモデルで DPO と SimPO を上回っていることを示している。
論文 参考訳(メタデータ) (2025-03-10T15:11:07Z) - KL Penalty Control via Perturbation for Direct Preference Optimization [55.24971559149686]
我々は、KLのペナルティ強度を各選好ペアに対して適応的に制御できる$varepsilon$-Direct Preference Optimization (varepsilon$-DPO)を提案する。
KLペナルティ緩和のための$varepsilon$-DPOの簡単な基準は、既存の直接アライメントアルゴリズムと比較して、DPOを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-02-18T06:44:10Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - The Crucial Role of Samplers in Online Direct Preference Optimization [36.68862142959827]
我々はDPOの収束率を厳密に解析し、正確な勾配設定の下で異なるサンプリング戦略で解析する。
提案するオンラインサンプリングは$textbflinear$ convergenceを達成する一方、均一サンプリングは$textbflinear$ convergenceを達成する。
例えば、Safe-RLHFデータセットでバニラDPOを74ドル以上上回っている。
論文 参考訳(メタデータ) (2024-09-29T07:53:50Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。