論文の概要: Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models
- arxiv url: http://arxiv.org/abs/2504.20157v1
- Date: Mon, 28 Apr 2025 18:02:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.622463
- Title: Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models
- Title(参考訳): 評価思考に向けて:リワードモデルを進化させたメタポリシー最適化
- Authors: Zae Myung Kim, Chanwoo Park, Vipul Raheja, Dongyeop Kang,
- Abstract要約: トレーニングを通じて報酬モデルのプロンプトを動的に洗練するメタリワードモデルを統合するフレームワークを導入する。
MPOはより安定したポリシー最適化を促進し、手動報酬プロンプト設計の必要性を大幅に低減する。
広範囲に手作りの報酬プロンプトによって導かれるモデルと同等以上のパフォーマンスが得られる。
- 参考スコア(独自算出の注目度): 21.781693384336567
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reward-based alignment methods for large language models (LLMs) face two key limitations: vulnerability to reward hacking, where models exploit flaws in the reward signal; and reliance on brittle, labor-intensive prompt engineering when LLMs are used as reward models. We introduce Meta Policy Optimization (MPO), a framework that addresses these challenges by integrating a meta-reward model that dynamically refines the reward model's prompt throughout training. In MPO, the meta-reward model monitors the evolving training context and continuously adjusts the reward model's prompt to maintain high alignment, providing an adaptive reward signal that resists exploitation by the policy. This meta-learning approach promotes a more stable policy optimization, and greatly reduces the need for manual reward prompt design. It yields performance on par with or better than models guided by extensively hand-crafted reward prompts. Furthermore, we show that MPO maintains its effectiveness across diverse tasks, such as question answering and mathematical reasoning, without requiring specialized reward designs. Beyond standard RLAIF, MPO's meta-learning formulation is readily extensible to higher-level alignment frameworks. Overall, this method addresses theoretical and practical challenges in reward-based RL alignment for LLMs, paving the way for more robust and adaptable alignment strategies. The code and models will be publicly shared.
- Abstract(参考訳): 大規模な言語モデル(LLM)のリワードベースのアライメント手法は、2つの重要な制限に直面している。ハックに対する脆弱性、報酬信号の欠陥を利用するモデル、LLMを報酬モデルとして使用する場合の脆弱で労働集約的なプロンプトエンジニアリングへの依存である。
メタポリシー最適化(MPO)は、トレーニングを通じて報酬モデルのプロンプトを動的に洗練するメタリワードモデルを統合することで、これらの課題に対処するフレームワークである。
MPOでは、メタリワードモデルは、進化するトレーニングコンテキストを監視し、報酬モデルの高いアライメントを維持するためのプロンプトを継続的に調整し、ポリシーによる利用に抵抗する適応的な報酬信号を提供する。
このメタラーニングアプローチは、より安定したポリシー最適化を促進し、手動報酬プロンプト設計の必要性を大幅に低減する。
広範囲に手作りの報酬プロンプトによって導かれるモデルと同等以上のパフォーマンスが得られる。
さらに,質問応答や数学的推論などの多種多様なタスクにおいて,特定の報酬設計を必要とせず,MPOの有効性を維持できることを示す。
標準的なRLAIF以外にも、MPOのメタラーニングの定式化は、高レベルのアライメントフレームワークに容易に拡張可能である。
全体として、この手法はLLMに対する報酬に基づくRLアライメントの理論的および実践的な課題に対処し、より堅牢で適応可能なアライメント戦略の道を開いた。
コードとモデルは公開されます。
関連論文リスト
- Adversarial Training of Reward Models [74.17196154247964]
本稿では,対戦型学習フレームワークAdv-RMについて紹介する。
強化学習を活用することで、Adv-RMは、大規模な最先端の報酬モデルにおける脆弱性を明らかにするポリシーを訓練する。
本稿では,Adv-RMが従来の報酬訓練よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-08T15:38:25Z) - Approximated Variational Bayesian Inverse Reinforcement Learning for Large Language Model Alignment [0.618727087412292]
大規模言語モデル(LLM)のアライメントは、有用で無害なコンテンツを生成するために不可欠である。
既存のアプローチでは、好みに基づく人間のフィードバックデータを利用して報酬関数を学習する。
近似変分アライメント学習(AVRIL)によるLLMアライメントを実現するための新しいトレーニング目標である近似変分アライメント(AVA)を提案する。
論文 参考訳(メタデータ) (2024-11-14T10:37:34Z) - HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z) - Robust Model-Based Reinforcement Learning with an Adversarial Auxiliary Model [2.9109581496560044]
特定のマルコフ決定過程(MDP)で訓練するRLエージェントは、ほぼ同一のMDPでよく機能するのにしばしば苦労する。
我々は,ロバストMDPの枠組みをモデルベース設定に適用し,新しい学習遷移モデルを導入する。
実験結果から,高次元MuJoCo制御タスクにおけるポリシーロバスト性の顕著な改善が示唆された。
論文 参考訳(メタデータ) (2024-06-14T12:37:08Z) - ALaRM: Align Language Models via Hierarchical Rewards Modeling [41.79125107279527]
ALaRMは、人間からのフィードバックから強化学習において、階層的な報酬をモデル化する最初のフレームワークである。
このフレームワークは、全体的な報酬とアスペクト固有の報酬を統合することで、現在のアライメントアプローチの限界に対処する。
我々は、長文質問応答および機械翻訳タスクの応用を通して、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-03-11T14:28:40Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Hindsight Expectation Maximization for Goal-conditioned Reinforcement
Learning [26.631740480100724]
本稿では,目標条件付きRLのためのグラフィカルモデルフレームワークを提案する。
Eステップは、HERのような「後見の学習」技法が、極めてスパースなゴール条件の報酬を扱う方法の自然な解釈を提供する。
Mステップは、教師付き学習更新にポリシー最適化を還元し、画像などの高次元入力に対するエンドツーエンドトレーニングを大幅に安定化する。
論文 参考訳(メタデータ) (2020-06-13T03:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。