論文の概要: Dual-Weighted Reinforcement Learning for Generative Preference Modeling
- arxiv url: http://arxiv.org/abs/2510.15242v2
- Date: Tue, 21 Oct 2025 18:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.537376
- Title: Dual-Weighted Reinforcement Learning for Generative Preference Modeling
- Title(参考訳): 二重重み付き強化学習による生成的選好モデルの構築
- Authors: Shengyu Feng, Yun He, Shuang Ma, Beibin Li, Yuanhao Xiong, Songlin Li, Karishma Mandyam, Julian Katz-Samuels, Shengjie Bi, Licheng Yu, Hejia Zhang, Karthik Abinav Sankararaman, Han Fang, Riham Mansour, Yiming Yang, Manaal Faruqui,
- Abstract要約: 本稿では,2重強化学習(DWRL)を嗜好モデリングの新しいフレームワークとして提案する。
本稿では、DWRLを生成的嗜好モデル(GPM)を訓練して嗜好モデルに適用し、まず思考を生成し、それから人間の選好スコアを予測する。
その結果、DWRLは、検証可能なタスク以上の推論強化された選好学習の一般的なフレームワークとして位置づけられた。
- 参考スコア(独自算出の注目度): 61.443461640955796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has recently proven effective at scaling chain-of-thought (CoT) reasoning in large language models on tasks with verifiable answers. However, extending RL to more general non-verifiable tasks, typically in the format of human preference pairs, remains both challenging and underexplored. In this work, we propose Dual-Weighted Reinforcement Learning (DWRL), a new framework for preference modeling that integrates CoT reasoning with the Bradley-Terry (BT) model via a dual-weighted RL objective that preserves preference-modeling inductive bias. DWRL approximates the maximum-likelihood objective of the BT model with two complementary weights: an instance-wise misalignment weight, which emphasizes under-trained pairs misaligned with human preference, and a group-wise (self-normalized) conditional preference score, which promotes promising thoughts. In this paper, we apply DWRL to preference modeling by training generative preference models (GPMs) to first generate a thought and then predict the human preference score. Across multiple benchmarks and model scales (Llama3 and Qwen2.5), DWRL consistently outperforms both GPM baselines and scalar models, while producing coherent, interpretable thoughts. In summary, our results position DWRL as a general framework for reasoning-enhanced preference learning beyond verifiable tasks.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 大規模言語モデルにおけるチェーン・オブ・シント(CoT)推論のスケールアップに有効であることが最近証明された。
しかしながら、RLをより一般的な非検証可能なタスク(典型的には人間の選好ペアの形式)に拡張することは、依然として困難かつ過小評価されている。
本研究では,CoT推論をBradley-Terry(BT)モデルと統合した優先モデルのための新しいフレームワークであるDual-Weighted Reinforcement Learning (DWRL)を提案する。
DWRLはBTモデルの最大様相の目的を2つの相補的な重みで近似する。例えば、訓練されていないペアが人間の好みに合わないことを強調するインスタンスワイドのミスアライメント重みと、有望な思考を促進するグループワイド(自己正規化)条件設定スコアである。
本稿では、DWRLを生成的嗜好モデル(GPM)を訓練して嗜好モデルに適用し、まず思考を生成し、それから人間の選好スコアを予測する。
複数のベンチマークとモデルスケール(Llama3とQwen2.5)にわたって、DWRLは一貫してGPMベースラインとスカラーモデルの両方を上回り、一貫性のある解釈可能な思考を生み出している。
要約すると、DWRLは、検証可能なタスク以上の推論強化された選好学習の一般的なフレームワークとして位置づけられている。
関連論文リスト
- OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling [29.818409458662344]
LlamaやQwenのような異なる言語モデルファミリーは、強化学習(RL)による後訓練中に異なる行動を示す
本研究では,MegaMath-Web-Proのような高品質な数学的コーパスがベースモデルとRL性能の両方を著しく改善することを明らかにする。
2段階の中間訓練戦略であるStable-then-Decayを導入し、ベースモデルを学習率を一定とした200Bトークンでトレーニングし、その後CoTに着目した3つのブランチで20Bトークンを学習速度を劣化させた。
論文 参考訳(メタデータ) (2025-06-25T14:58:13Z) - Metis-RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning [20.515599491717442]
マルチモーダル推論モデル学習のためのtextbfMetis-RISE (textbfRL textbfSFT textbfEnhances) を提案する。
論文 参考訳(メタデータ) (2025-06-16T02:56:13Z) - Alignment as Distribution Learning: Your Preference Model is Explicitly a Language Model [12.063078727764045]
人間のフィードバックからの強化学習によるアライメントは理論的正当性に欠け、決定論的解のインセンティブを与える。
本稿では, 優先最大推定, 優先蒸留, 逆KL最小化の3つの基本学習目標を提案する。
我々は、我々の分布学習フレームワーク、特に嗜好蒸留が、RLHFとDPOのパフォーマンスを一貫して上回るか、あるいは一致しているかを実証的に示す。
論文 参考訳(メタデータ) (2025-06-02T10:36:31Z) - ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。
我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。
これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文 参考訳(メタデータ) (2025-05-30T17:59:01Z) - RAST: Reasoning Activation in LLMs via Small-model Transfer [33.32587030836428]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なアプローチとなっている。
大規模にRLを適用することは、潜在的にリソース集約であり、複数のモデルコピーと広範なGPUワークロードを必要とします。
本稿では、RL学習モデルからRL学習モデルからより大規模なモデルにRL誘導確率調整を注入することにより、推論挙動を伝達する簡易かつ効果的なRASTを提案する。
論文 参考訳(メタデータ) (2025-05-30T17:57:08Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - A Unified Pairwise Framework for RLHF: Bridging Generative Reward Modeling and Policy Optimization [18.892740849961456]
Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルと人間の好みを協調させる重要なパラダイムとして生まれてきた。
本稿では,これらの課題に対処するRLHFフレームワークであるPairwise-RLを紹介する。
論文 参考訳(メタデータ) (2025-04-07T11:34:48Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。