論文の概要: Alignment as Distribution Learning: Your Preference Model is Explicitly a Language Model
- arxiv url: http://arxiv.org/abs/2506.01523v1
- Date: Mon, 02 Jun 2025 10:36:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.195154
- Title: Alignment as Distribution Learning: Your Preference Model is Explicitly a Language Model
- Title(参考訳): 分散学習としてのアライメント:あなたの選好モデルは明らかに言語モデルである
- Authors: Jihun Yun, Juno Kim, Jongho Park, Junhyuck Kim, Jongha Jon Ryu, Jaewoong Cho, Kwang-Sung Jun,
- Abstract要約: 人間のフィードバックからの強化学習によるアライメントは理論的正当性に欠け、決定論的解のインセンティブを与える。
本稿では, 優先最大推定, 優先蒸留, 逆KL最小化の3つの基本学習目標を提案する。
我々は、我々の分布学習フレームワーク、特に嗜好蒸留が、RLHFとDPOのパフォーマンスを一貫して上回るか、あるいは一致しているかを実証的に示す。
- 参考スコア(独自算出の注目度): 12.063078727764045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment via reinforcement learning from human feedback (RLHF) has become the dominant paradigm for controlling the quality of outputs from large language models (LLMs). However, when viewed as `loss + regularization,' the standard RLHF objective lacks theoretical justification and incentivizes degenerate, deterministic solutions, an issue that variants such as Direct Policy Optimization (DPO) also inherit. In this paper, we rethink alignment by framing it as \emph{distribution learning} from pairwise preference feedback by explicitly modeling how information about the target language model bleeds through the preference data. This explicit modeling leads us to propose three principled learning objectives: preference maximum likelihood estimation, preference distillation, and reverse KL minimization. We theoretically show that all three approaches enjoy strong non-asymptotic $O(1/n)$ convergence to the target language model, naturally avoiding degeneracy and reward overfitting. Finally, we empirically demonstrate that our distribution learning framework, especially preference distillation, consistently outperforms or matches the performances of RLHF and DPO across various tasks and models.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)によるアライメントは、大規模言語モデル(LLM)からの出力の質を制御する主要なパラダイムとなっている。
しかしながら、'loss + regularization' とみなすと、標準の RLHF の目標は理論上の正当性を欠き、退化的、決定論的解の動機付けを欠いている。
本稿では、対象言語モデルに関する情報が優先データを通してどのように出血するかを明示的にモデル化することで、ペアの嗜好フィードバックから「emph{distriion learning}」と表現することで、アライメントを再考する。
この明示的なモデリングにより、選好最大推定、選好蒸留、逆KL最小化の3つの原則的学習目標が提案される。
理論的には、これら3つのアプローチは、非漸近的でない$O(1/n)$を目標言語モデルに収束させ、自然に優越性や報酬過剰を回避していることを示す。
最後に、我々の分布学習フレームワーク、特に嗜好蒸留は、様々なタスクやモデルにおいて、RLHFとDPOのパフォーマンスを一貫して上回るか、一致しているかを実証的に示す。
関連論文リスト
- Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Would I Lie To You? Inference Time Alignment of Language Models using Direct Preference Heads [11.254305578659002]
言語モデリングヘッドの出力分布に直接影響を及ぼすことなく、補助的な報酬ヘッドを通して人間の嗜好信号を学習できる微調整フレームワークであるDirect Preference Heads (DPH)を導入する。
GLUE, RACE, および GPT4All 評価スイート上で本モデルを評価し, スーパービジョンファインチューニング (SFT) やダイレクトパラメータ最適化 (DPO) のみを用いたモデルよりも高いスコアが得られることを示す。
論文 参考訳(メタデータ) (2024-05-30T13:38:52Z) - Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。
多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。