Fugu-MT 論文翻訳(概要): Mutual-Taught for Co-adapting Policy and Reward Models

論文の概要: Mutual-Taught for Co-adapting Policy and Reward Models

arxiv url: http://arxiv.org/abs/2506.06292v2
Date: Tue, 10 Jun 2025 03:32:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 19:51:30.218314
Title: Mutual-Taught for Co-adapting Policy and Reward Models
Title（参考訳）: 共適応政策とリワードモデルのための相互学習
Authors: Tianyuan Shi, Canbin Huang, Fanqi Wan, Longguang Zhong, Ziyi Yang, Weizhou Shen, Xiaojun Quan, Ming Yan,
Abstract要約: 政策モデルと報酬モデルの両方を反復的に改善する自己学習手法であるMutual-Taughtを提案する。実験の結果、この反復的なアプローチは両方のモデルに一貫した改善をもたらすことが示された。
参考スコア（独自算出の注目度）: 43.11214888109746
License: http://creativecommons.org/licenses/by/4.0/
Abstract: During the preference optimization of large language models (LLMs), distribution shifts may arise between newly generated model samples and the data used to train the reward model (RM). This shift reduces the efficacy of the RM, which in turn negatively impacts the performance of the policy model (PM). To address this challenge, we propose Mutual-Taught, a self-training method that iteratively improves both the PM and RM without requiring additional human annotation. Our approach mirrors the expectation-maximization (EM) algorithm. In the E-step, the PM is updated using feedback from the current RM, guiding the PM toward a better approximation of the latent optimal preference distribution. In the M-step, we update the RM by constructing training data from the outputs of the PM before and after the E-step update. This process ensures that the RM adapts to the evolving policy distribution. Experimental results demonstrate that this iterative approach leads to consistent improvements in both models. Specifically, our 8B policy model, LLaMA-3-8B-Instruct-MT, achieves a length-controlled win rate of 54.1\% on AlpacaEval-2, while our 8B reward model, FsfairX-LLaMA3-RM-MT, performs on par with GPT-4o-2024-08-06 on RewardBench.
Abstract（参考訳）: 大規模言語モデル(LLM)の選好最適化において、新たに生成されたモデルサンプルと報酬モデル(RM)のトレーニングに使用されるデータとの分散シフトが発生する可能性がある。このシフトはRMの有効性を低下させ、これは方針モデル(PM)の性能に悪影響を及ぼす。この課題に対処するために,人間のアノテーションを必要とせず,PMとRMの両方を反復的に改善する自己学習手法であるMutual-Taughtを提案する。提案手法は予測最大化(EM)アルゴリズムを反映する。 Eステップでは、PMを現在のRMからのフィードバックを用いて更新し、PMを遅延最適選好分布のより優れた近似に導く。 Mステップでは、Eステップ更新前後のPM出力からトレーニングデータを構築し、RMを更新する。このプロセスは、RMが進化する政策分布に適応することを保証する。実験の結果、この反復的なアプローチは両方のモデルに一貫した改善をもたらすことが示された。具体的には、我々の8BポリシーモデルであるLLaMA-3-8B-Instruct-MTは、AlpacaEval-2で54.1\%、我々の8B報酬モデルであるFsfairX-LLaMA3-RM-MTは、RewardBenchでGPT-4o-2024-08-06と同等である。

関連論文リスト

Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文参考訳（メタデータ） (2025-07-21T11:19:04Z)
Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。 ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文参考訳（メタデータ） (2025-07-09T14:29:45Z)
On the Robustness of Reward Models for Language Model Alignment [9.804782604188656]
我々はBradley-Terry(BT)モデルを用いて訓練した報酬モデルにおいて、過度に最適化される原因について検討する。隠れ状態ノルムの過度な分散が過度な最適化の源であることを示す。最先端のRMを8Bスケールで超越した高品質なデータとモデルにBSRを適用した。
論文参考訳（メタデータ） (2025-05-12T06:48:26Z)
The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文参考訳（メタデータ） (2025-01-13T13:10:16Z)
Entropy-Regularized Process Reward Model [30.279394036823092]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。 KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。 MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-12-15T01:09:23Z)
RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文参考訳（メタデータ） (2024-09-20T01:46:07Z)
It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF [33.197077764166536]
ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback)は、言語モデルと人間の好みを合わせるためのトレーニングポリシーモデル(PM)と報酬モデル(RM)を含む。 PMとRMを独立に焦点をあてるのではなく、微調整中の相互作用を調べることを提案する。本研究は、RMとPMの連続的な改善がRLHFの進行に変換されない飽和現象を観察することから始まる。分析の結果, RMはPM応答に適切なスコアを割り当てず, 人間の嗜好に35%のミスマッチ率を示し, PMとRMの相違が顕著であった。
論文参考訳（メタデータ） (2024-06-12T07:52:17Z)
WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文参考訳（メタデータ） (2024-01-22T18:27:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。