論文の概要: InSPO: Unlocking Intrinsic Self-Reflection for LLM Preference Optimization
- arxiv url: http://arxiv.org/abs/2512.23126v2
- Date: Tue, 30 Dec 2025 14:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 13:52:31.620071
- Title: InSPO: Unlocking Intrinsic Self-Reflection for LLM Preference Optimization
- Title(参考訳): InSPO: LLM選好最適化のための固有自己回帰のアンロック
- Authors: Yu Li, Tian Lan, Zhengling Qi,
- Abstract要約: Intrinsic Self-reflective Preference Optimization (InSPO)を提案する。
InSPOは、アーキテクチャの変更や推論のオーバーヘッドなしに、プラグインとプレイの強化として機能する。
- 参考スコア(独自算出の注目度): 18.988527161000203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) and its variants have become standard for aligning Large Language Models due to their simplicity and offline stability. However, we identify two fundamental limitations. First, the optimal policy depends on arbitrary modeling choices (scalarization function, reference policy), yielding behavior reflecting parameterization artifacts rather than true preferences. Second, treating response generation in isolation fails to leverage comparative information in pairwise data, leaving the model's capacity for intrinsic self-reflection untapped. To address it, we propose Intrinsic Self-reflective Preference Optimization (InSPO), deriving a globally optimal policy conditioning on both context and alternative responses. We prove this formulation superior to DPO/RLHF while guaranteeing invariance to scalarization and reference choices. InSPO serves as a plug-and-play enhancement without architectural changes or inference overhead. Experiments demonstrate consistent improvements in win rates and length-controlled metrics, validating that unlocking self-reflection yields more robust, human-aligned LLMs.
- Abstract(参考訳): 直接選好最適化(DPO)とその変種は、その単純さとオフライン安定性のために、大規模言語モデルの整合に標準となっている。
しかし、我々は2つの基本的な限界を識別する。
第一に、最適ポリシーは任意のモデリング選択(スカラー化関数、参照ポリシー)に依存し、真の嗜好ではなくパラメータ化アーティファクトを反映する振る舞いをもたらす。
第二に、応答生成を分離して扱うことは、ペアデータの比較情報を活用するのに失敗し、本質的な自己回帰の能力は失われる。
そこで本研究では、コンテキストと代替応答の両方に基づいて、グローバルに最適なポリシー条件を導出するIntrinsic Self-reflective Preference Optimization (InSPO)を提案する。
この定式化はDPO/RLHFよりも優れており、スカラー化や参照選択の不変性を保証する。
InSPOは、アーキテクチャの変更や推論のオーバーヘッドなしに、プラグインとプレイの強化として機能する。
実験では、勝利率と長さ制御のメトリクスが一貫した改善を示し、自己回帰を解き放つことでより堅牢で人間に準拠したLCMが得られることを検証した。
関連論文リスト
- SGPO: Self-Generated Preference Optimization based on Self-Improver [6.528083376369728]
大規模言語モデル(LLM)は、実用的で信頼性の高いデプロイメントのために人間の好みに合わせている必要がある。
SGPO(Self-Generated Preference Optimization)を提案する。
改善者は、ポリシーモデルの直接選好最適化(DPO)のための自己生成選好データに対するポリシーモデルからの応答を洗練する。
AlpacaEval 2.0 と Arena-Hard の実験結果から,提案した SGPO は DPO とベースライン自己改善法を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-07-27T08:55:40Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF [80.32171988565999]
オンラインとオフラインのRLHFに統一的なアプローチを導入します。
VPOは、報酬関数の最大値推定を対応する値関数で正規化する。
テキスト要約とダイアログの実験は、VPOの実用性と有効性を検証する。
論文 参考訳(メタデータ) (2024-05-29T17:51:42Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。