論文の概要: SLIME: Stabilized Likelihood Implicit Margin Enforcement for Preference Optimization
- arxiv url: http://arxiv.org/abs/2602.02383v2
- Date: Tue, 03 Feb 2026 13:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.875244
- Title: SLIME: Stabilized Likelihood Implicit Margin Enforcement for Preference Optimization
- Title(参考訳): SLIME: 優先最適化のための安定化されたいいね!
- Authors: Maksim Afanasyev, Illarion Iov,
- Abstract要約: 我々は、優先順位学習を生成品質から切り離すために設計された参照なしアライメント目的のSLIMEを紹介する。
以上の結果から,SLIMEは最先端のベースラインに比べて優れた性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct preference optimization methods have emerged as a computationally efficient alternative to Reinforcement Learning from Human Feedback (RLHF) for aligning Large Language Models (LLMs). Latest approaches have streamlined the alignment process by deriving implicit reward functions, yet they often suffer from a critical objective mismatch: optimizing the relative margin between chosen and rejected responses does not guarantee the preservation of the chosen response's absolute likelihood. This can lead to unlearning, where the model degrades the probability of high-quality outputs to satisfy margin constraints, and formatting collapse caused by the over-penalization of rejected sequences. In this work, we introduce SLIME (Stabilized Likelihood Implicit Margin Enforcement), a reference-free alignment objective designed to decouple preference learning from generation quality. SLIME incorporates a three-pronged objective: (1) an anchoring term to maximize the likelihood of preferred responses; (2) a stabilizing penalty that prevents the probabilities of rejected tokens from collapsing to zero; and (3) a dual-margin mechanism that combines hard and soft constraints for precise boundary shaping. Our results demonstrate that SLIME achieves superior performance compared to state-of-the-art baselines while maintaining higher generation stability.
- Abstract(参考訳): RLHF (Reinforcement Learning from Human Feedback) の代替として,Large Language Models (LLMs) を協調する直接選好最適化手法が登場した。
最新のアプローチでは、暗黙の報酬関数を導出することでアライメントプロセスを合理化しているが、しばしば批判的な客観的なミスマッチに悩まされる: 選択された応答と拒否された応答の相対的マージンを最適化することは、選択された応答の絶対絶対値の保存を保証するものではない。
これは、モデルがマージン制約を満たすために高品質な出力の確率を低下させ、拒否されたシーケンスの過払いによるフォーマット崩壊を引き起こすアンラーニングに繋がる。
本研究では,選択学習を生成品質から切り離すための参照自由アライメントであるSLIME(Stabilized Likelihood Implicit Margin Enforcement)を紹介する。
SLIME は,(1) 優先応答の可能性を最大化するためのアンカー用語,(2) 拒否トークンの確率をゼロに抑える安定化ペナルティ,(3) 厳密な境界形成のための厳密な制約とソフトな制約を結合する二重マージン機構,の3つの目的を取り入れている。
以上の結果から, SLIMEは高い生成安定性を維持しつつ, 最先端のベースラインよりも優れた性能を達成できることが示唆された。
関連論文リスト
- Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Hard Constraints Meet Soft Generation: Guaranteed Feasibility for LLM-based Combinatorial Optimization [14.17648636921649]
3つの重要なイノベーションを通じて100%実現可能なフレームワークであるFALCONを紹介します。
FALCONは、最先端のニューラルおよびLLMベースの解決器のソリューション品質をマッチングまたは超過しながら、完全な実現性を達成する。
論文 参考訳(メタデータ) (2026-02-01T08:09:06Z) - Optimistic Feasible Search for Closed-Loop Fair Threshold Decision-Making [0.0]
バンディットフィードバックからの1次元しきい値ポリシーのオンライン学習について検討する。
我々は,報酬と制約残差に対する信頼境界を維持する単純なグリッドベース手法であるOptimistic Feasible Search (OFS)を提案する。
論文 参考訳(メタデータ) (2025-12-26T10:44:40Z) - Certifiable Safe RLHF: Fixed-Penalty Constraint Optimization for Safer Language Models [7.422627253922975]
我々は,大規模コーパスでトレーニングされたコストモデルであるCertifiable Safe-RLHFを導入し,セマンティックグラウンドの安全性スコアを割り当てる。
適切にスケールされたペナルティにより、二重変数更新の必要性を排除し、安全制約の実現性を保証することができる。
経験的評価により、CS-RLHFは、名目や脱獄のプロンプトに対して、最先端のモデル応答よりも5倍効率が高いことが示されている。
論文 参考訳(メタデータ) (2025-10-03T21:24:41Z) - A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement [47.95776810771774]
Reinforcement Learning from Human Feedback (RLHF) は言語モデルのアライメントにおいて主要なアプローチとなっている。
本稿では,マージンに基づく手法の共通の落とし穴を同定する。
我々はこれらの問題行動の背景にある理由を軽視する。
論文 参考訳(メタデータ) (2024-10-17T17:52:01Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。