論文の概要: The Hidden Link Between RLHF and Contrastive Learning
- arxiv url: http://arxiv.org/abs/2506.22578v1
- Date: Fri, 27 Jun 2025 18:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.4735
- Title: The Hidden Link Between RLHF and Contrastive Learning
- Title(参考訳): RLHFとコントラスト学習の隠れリンク
- Authors: Xufei Lv, Haoyuan Sun, Xuefeng Bai, Min Zhang, Houde Liu, Kehai Chen,
- Abstract要約: 本稿では,人間フィードバックからの強化学習と直接選好最適化が相互情報の観点から解釈可能であることを示す。
このフレームワーク内では、RLHFとDPOの両方を、対照的な学習を行う方法と見なすことができる。
この観点からDV/MINE境界をJensen-Shannon MI推定器に置き換え、相互情報最適化を提案する。
- 参考スコア(独自算出の注目度): 24.828596020853727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment of large language models (LLMs) with human values has recently garnered significant attention, with prominent examples including the canonical yet costly Reinforcement Learning from Human Feedback (RLHF) and the simple Direct Preference Optimization (DPO). In this work, we demonstrate that both RLHF and DPO can be interpreted from the perspective of mutual information (MI) maximization, uncovering a profound connection to contrastive learning. Within this framework, both RLHF and DPO can be viewed as methods that perform contrastive learning based on the positive and negative samples derived from the base model, leveraging the Donsker-Varadhan (DV) lower bound on MI (equivalently, the MINE estimator). This paradigm further explains why RLHF may not intrinsically incentivize reasoning capacities in LLMs beyond what is already present in the base model. Building on this perspective, we replace the DV/MINE bound with the Jensen-Shannon MI estimator and propose Mutual Information Optimization (MIO). Comprehensive theoretical analysis and extensive empirical evaluations demonstrate that MIO mitigates the late-stage decline in chosen-likelihood observed in DPO, achieving competitive or superior performance across various challenging reasoning and mathematical benchmarks. We will release the model and code upon acceptance.
- Abstract(参考訳): 人的価値を持つ大規模言語モデル(LLM)のアライメントは近年注目され、標準的だがコストがかかるヒューマンフィードバックからの強化学習(RLHF)や単純な直接参照最適化(DPO)といった顕著な例が紹介されている。
本研究では,RLHFとDPOが相互情報(MI)の最大化の観点から解釈可能であることを示す。
このフレームワーク内では、RLHF と DPO は、ベースモデルから派生した正および負のサンプルに基づいて、MI 上の Donsker-Varadhan (DV) の下界(等しくは MINE 推定器)を利用して、対照的な学習を行う方法とみなすことができる。
このパラダイムは、なぜRLHFがベースモデルにすでに存在するものを超えてLLMの推論能力に本質的にインセンティブを与えないのかをさらに説明している。
この観点から、我々はDV/MINE境界をJensen-Shannon MI推定器に置き換え、相互情報最適化(MIO)を提案する。
包括的理論解析と広範な経験的評価により、MIOはDPOで観測される選択的傾向の後期的な低下を緩和し、様々な難解な推論と数学的ベンチマークの競争力や優れた性能を達成することが示されている。
受け入れ次第、モデルとコードをリリースします。
関連論文リスト
- Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [51.22869332661607]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。
RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文 参考訳(メタデータ) (2025-05-26T09:54:02Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - OCEAN: Offline Chain-of-thought Evaluation and Alignment in Large Language Models [68.17018458283651]
本研究は,LLMのチェーン・オブ・思想能力のオフライン評価に焦点をあてる。
我々は知識グラフ(例えばWikidata5m)を使って、生成された思考の連鎖に対するフィードバックを提供する。
提案手法に基づいてLCMを最適化する方法を示す。
論文 参考訳(メタデータ) (2024-10-31T07:48:44Z) - Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model [3.300814846990438]
大きな言語モデル(LLM)は、自然言語の処理と生成能力によって、ますます人気が高まっている。
大量のテキストのデータセットでトレーニングされているため、LLMは有害なバイアスを継承し、人間の値と一致しない出力を生成することができる。
本稿では,人間フィードバックを用いた強化学習(RLHF)と直接選好最適化(DPO)のような対照的な学習手法の2つのLLMアライメントについて検討する。
RLHFとDPOの安定性とロバスト性を解析することにより,両手法の弱点を緩和する新しい手法MPOを提案する。
論文 参考訳(メタデータ) (2024-03-28T14:15:10Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。