論文の概要: Differential Information: An Information-Theoretic Perspective on Preference Optimization
- arxiv url: http://arxiv.org/abs/2505.23761v1
- Date: Thu, 29 May 2025 17:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.087287
- Title: Differential Information: An Information-Theoretic Perspective on Preference Optimization
- Title(参考訳): 微分情報: 選好最適化に関する情報理論的視点
- Authors: Yunjae Won, Hyunji Lee, Hyeonbin Hwang, Minjoon Seo,
- Abstract要約: 評価ラベルが参照ポリシーをターゲットポリシーに変換するために必要な差分情報をエンコードすると、DPOの対数比の報酬は、優先最適化を通じてターゲットポリシーを学習するための一意に最適な形式として現れることを示す。
差分情報分布のエントロピーを解析することにより、低エントロピー差分情報の学習が政策分布をいかに強化するかを特徴付ける。
その結果,高エントロピー差分情報の学習は一般教示フォローに不可欠であり,低エントロピー差分情報の学習は知識集約型質問応答に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 28.130875378499635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) has become a standard technique for aligning language models with human preferences in a supervised manner. Despite its empirical success, the theoretical justification behind its log-ratio reward parameterization remains incomplete. In this work, we address this gap by utilizing the Differential Information Distribution (DID): a distribution over token sequences that captures the information gained during policy updates. First, we show that when preference labels encode the differential information required to transform a reference policy into a target policy, the log-ratio reward in DPO emerges as the uniquely optimal form for learning the target policy via preference optimization. This result naturally yields a closed-form expression for the optimal sampling distribution over rejected responses. Second, we find that the condition for preferences to encode differential information is fundamentally linked to an implicit assumption regarding log-margin ordered policies-an inductive bias widely used in preference optimization yet previously unrecognized. Finally, by analyzing the entropy of the DID, we characterize how learning low-entropy differential information reinforces the policy distribution, while high-entropy differential information induces a smoothing effect, which explains the log-likelihood displacement phenomenon. We validate our theoretical findings in synthetic experiments and extend them to real-world instruction-following datasets. Our results suggest that learning high-entropy differential information is crucial for general instruction-following, while learning low-entropy differential information benefits knowledge-intensive question answering. Overall, our work presents a unifying perspective on the DPO objective, the structure of preference data, and resulting policy behaviors through the lens of differential information.
- Abstract(参考訳): 直接選好最適化(DPO)は、言語モデルと人間の選好を教師付きで整合させる標準的な手法となっている。
実証的な成功にもかかわらず、対数比の報酬パラメータ化の背後にある理論的正当性はいまだ不完全である。
本稿では,このギャップを,ポリシー更新時に得られた情報をキャプチャするトークンシーケンス上の分布である差分情報分布(DID)を用いて解決する。
まず、参照ポリシーをターゲットポリシーに変換するのに必要な差分情報を優先ラベルにエンコードすると、DPOにおける対数比の報酬は、優先最適化を通じてターゲットポリシーを学習するための一意に最適な形式として現れることを示す。
この結果は自然に、拒絶された応答に対する最適なサンプリング分布に対する閉形式表現をもたらす。
第二に、微分情報を符号化する優先条件は、ログマージン順序ポリシーに関する暗黙の仮定と基本的に関連している。
最後に、DIDのエントロピーを解析することにより、低エントロピー差分情報の学習が政策分布をいかに強化するかを特徴付けるとともに、高エントロピー差分情報はスムーズな効果を誘導し、ログのような変位現象を説明する。
我々は,合成実験における理論的知見を検証し,実世界の命令追従データセットに拡張する。
その結果,高エントロピー差分情報の学習は一般教示フォローに不可欠であり,低エントロピー差分情報の学習は知識集約型質問応答に有効であることが示唆された。
本研究は、DPOの目的、嗜好データの構造、および微分情報レンズによる政策行動に関する統一的な視点を示す。
関連論文リスト
- Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [52.983390470606146]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - What Has Been Overlooked in Contrastive Source-Free Domain Adaptation: Leveraging Source-Informed Latent Augmentation within Neighborhood Context [28.634315143647385]
ソースフリードメイン適応(SFDA)は、ラベル付きデータセットを使用してトレーニングされたモデルを適用して、ラベルなしデータセットで効果的に実行する。
この適応は、この2つの領域の間にデータ分布のかなりの相違が存在する場合、特に重要である。
対照的なSFDAに適した,単純かつ高効率な潜伏増強法を提案する。
論文 参考訳(メタデータ) (2024-12-18T20:09:46Z) - Optimal Classification under Performative Distribution Shift [13.508249764979075]
本稿では,動作効果をプッシュフォワード尺度としてモデル化した新しい視点を提案する。
我々は、新しい仮定のセットの下で、パフォーマンスリスクの凸性を証明する。
また, 性能リスクの最小化を min-max 変動問題として再定義することにより, 逆向きの頑健な分類との関係を確立する。
論文 参考訳(メタデータ) (2024-11-04T12:20:13Z) - Forward KL Regularized Preference Optimization for Aligning Diffusion Policies [8.958830452149789]
拡散政策の学習における中心的な問題は、様々なタスクにおいて、政策の出力と人間の意図を一致させることである。
そこで本稿では,拡散ポリシーを優先事項と整合させる新しいフレームワーク,フォワードKL正規化参照最適化を提案する。
その結果,提案手法は好みとの整合性が優れ,従来の最先端アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-09-09T13:56:03Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Reward Model Learning vs. Direct Policy Optimization: A Comparative Analysis of Learning from Human Preferences [24.645259298082436]
我々は、人間からのフィードバック(RLHF)からの強化学習のパラダイムと、最近提案された直接選好最適化(DPO)のパラダイムを体系的に比較することにより、人間の嗜好から学ぶことのより深い理解に向けた一歩を踏み出した。
RLHFとDPOの両方によって誘導される最適下界の最小値統計的境界を導出する。
我々は解析を近似最適化設定に拡張し、RLHFとDPOの指数的に減衰する収束率を導出する。
論文 参考訳(メタデータ) (2024-03-04T09:13:14Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。