論文の概要: Reflective Preference Optimization (RPO): Enhancing On-Policy Alignment via Hint-Guided Reflection
- arxiv url: http://arxiv.org/abs/2512.13240v1
- Date: Mon, 15 Dec 2025 11:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.648038
- Title: Reflective Preference Optimization (RPO): Enhancing On-Policy Alignment via Hint-Guided Reflection
- Title(参考訳): 反射優先最適化(RPO):ヒントガイド反射によるオンラインアライメントの強化
- Authors: Zihui Zhao, Zechang Li,
- Abstract要約: 我々は、ヒント誘導反射をDPOパラダイムに組み込んだ新しいフレームワークであるReflective Preference Optimization (RPO)を紹介する。
RPOは外部モデルを用いて幻覚源を特定し、簡潔な反射ヒントを生成する。
経験的に、RPOはトレーニングサンプルやイテレーションを少なくし、幻覚率を大幅に低減し、マルチモーダルベンチマークで最先端のパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 0.8287206589886881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) has emerged as a lightweight and effective alternative to Reinforcement Learning from Human Feedback (RLHF) and Reinforcement Learning with AI Feedback (RLAIF) for aligning large language and vision-language models. However, the standard DPO formulation, in which both the chosen and rejected responses are generated by the same policy, suffers from a weak learning signal because the two responses often share similar errors and exhibit small Kullback-Leibler (KL) divergence. This leads to slow and unstable convergence. To address this limitation, we introduce Reflective Preference Optimization (RPO), a new framework that incorporates hint-guided reflection into the DPO paradigm. RPO uses external models to identify hallucination sources and generate concise reflective hints, enabling the construction of on-policy preference pairs with stronger contrastiveness and clearer preference signals. We theoretically show that conditioning on hints increases the expected preference margin through mutual information and improves sample efficiency while remaining within the policy distribution family. Empirically, RPO achieves superior alignment with fewer training samples and iterations, substantially reducing hallucination rates and delivering state-of-the-art performance across multimodal benchmarks.
- Abstract(参考訳): 直接選好最適化(DPO)は、人間のフィードバックからの強化学習(RLHF)とAIフィードバックによる強化学習(RLAIF)の軽量で効果的な代替手段として登場し、大きな言語とビジョン言語モデルを調整する。
しかし、選択された応答と拒否された応答の両方が同じポリシーによって生成される標準DPO定式化は、2つの応答がしばしば同様のエラーを共有し、KL(Kullback-Leibler)の発散が小さいため、弱い学習信号に悩まされる。
これは緩やかで不安定な収束をもたらす。
この制限に対処するため、DPOパラダイムにヒント誘導リフレクションを組み込んだ新しいフレームワークであるReflective Preference Optimization (RPO)を導入する。
RPOは外部モデルを用いて幻覚源を特定し、簡潔な反射ヒントを生成する。
理論的には、ヒントの条件付けは、相互情報を介して期待される嗜好のマージンを増大させ、ポリシー分散ファミリーに留まりながらサンプル効率を向上させる。
経験的に、RPOはトレーニングサンプルやイテレーションを少なくし、幻覚率を大幅に低減し、マルチモーダルベンチマークで最先端のパフォーマンスを提供する。
関連論文リスト
- Value-Free Policy Optimization via Reward Partitioning [0.08192907805418585]
単軌道強化学習のための新しい手法であるReward Partitioning Optimization (RPO)を導入する。
RPOは、データから直接推定されるアプローチを使用して、観察された報酬を正規化する。
我々は,Flan-T5エンコーダデコーダモデルを用いて,スカラーフィードバック言語モデリングタスクにおけるRPOの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-16T17:06:27Z) - Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [53.914481648817066]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。
RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文 参考訳(メタデータ) (2025-05-26T09:54:02Z) - Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts [17.243429150450886]
応答集合全体の最適化のために,$textbfMulti-Preference Optimization (MPO)を提案する。
MPOは偏差に基づく重み付けを採用しており、平均的な報酬から最も逸脱する外れ値の応答を強調している。
理論的には、MPOはクエリ毎のレスポンス数に対して$mathcalOleft(frac1sqrtnright)$でアライメントバイアスを低減する。
論文 参考訳(メタデータ) (2024-12-05T21:50:22Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。