論文の概要: RLAR: An Agentic Reward System for Multi-task Reinforcement Learning on Large Language Models
- arxiv url: http://arxiv.org/abs/2603.00724v1
- Date: Sat, 28 Feb 2026 16:14:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.339867
- Title: RLAR: An Agentic Reward System for Multi-task Reinforcement Learning on Large Language Models
- Title(参考訳): RLAR:大規模言語モデルを用いたマルチタスク強化学習のためのエージェント・リワードシステム
- Authors: Andrew Zhuoer Feng, Cunxiang Wang, Bosi Wen, Yidong Wang, Yu Luo, Hongning Wang, Minlie Huang,
- Abstract要約: RLAR(Reinforcement Learning from Agent Rewards)はエージェント駆動のフレームワークで、個別のクエリに動的に調整された報酬関数を割り当てる。
RLARは, 数学, コーディング, 翻訳, 対話タスクにおける10から60までの連続的な性能向上を示す。
- 参考スコア(独自算出の注目度): 86.61108562387993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model alignment via reinforcement learning depends critically on reward function quality. However, static, domain-specific reward models are often costly to train and exhibit poor generalization in out-of-distribution scenarios encountered during RL iterations. We present RLAR (Reinforcement Learning from Agent Rewards), an agent-driven framework that dynamically assigns tailored reward functions to individual queries. Specifically, RLAR transforms reward acquisition into a dynamic tool synthesis and invocation task. It leverages LLM agents to autonomously retrieve optimal reward models from the Internet and synthesize programmatic verifiers through code generation. This allows the reward system to self-evolve with the shifting data distributions during training. Experimental results demonstrate that RLAR yields consistent performance gains ranging from 10 to 60 across mathematics, coding, translation, and dialogue tasks. On RewardBench-V2, RLAR significantly outperforms static baselines and approaches the performance upper bound, demonstrating superior generalization through dynamic reward orchestration. The data and code are available on this link: https://github.com/ZhuoerFeng/RLAR.
- Abstract(参考訳): 強化学習による大規模言語モデルのアライメントは、報酬関数の品質に大きく依存する。
しかし、静的なドメイン固有の報酬モデルは、RLイテレーション中に遭遇する配布外シナリオにおいて、トレーニングや一般化の貧弱さを示すためにしばしばコストがかかる。
RLAR(Reinforcement Learning from Agent Rewards)はエージェント駆動のフレームワークで、個々のクエリに対して動的に調整された報酬関数を割り当てる。
具体的には、RLARは報酬獲得を動的ツール合成および実行タスクに変換する。
LLMエージェントを利用して、インターネットから最適な報酬モデルを自律的に取得し、コード生成を通じてプログラム検証を合成する。
これにより、報奨システムは、トレーニング中にシフトするデータ分布で自己進化することが可能になる。
実験の結果、RLARは数学、コーディング、翻訳、対話タスクで10から60までの連続的なパフォーマンス向上が得られることが示された。
RewardBench-V2では、RLARは静的ベースラインを著しく上回り、パフォーマンス上界に近づく。
https://github.com/ZhuoerFeng/RLAR.com/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s /s/s/s/s/s/s/s/s/s/s/s/s/s/s/s
関連論文リスト
- Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。
既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:32Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation [23.060355911225923]
リランカは、生成品質と説明可能性を高めるために、検索した文書の精錬において重要な役割を果たす。
本稿では,リランカが検索した文書の順序と数の両方を動的に調整する新しいRAGフレームワークであるDynamicRAGを提案する。
論文 参考訳(メタデータ) (2025-05-12T05:19:01Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。