論文の概要: DRAFT-RL: Multi-Agent Chain-of-Draft Reasoning for Reinforcement Learning-Enhanced LLMs
- arxiv url: http://arxiv.org/abs/2511.20468v1
- Date: Tue, 25 Nov 2025 16:33:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.550915
- Title: DRAFT-RL: Multi-Agent Chain-of-Draft Reasoning for Reinforcement Learning-Enhanced LLMs
- Title(参考訳): DRAFT-RL:強化学習強化LDMのためのマルチエージェント・オブ・ドラフト推論
- Authors: Yuanhao Li, Mingshan Liu, Hongbo Wang, Yiding Zhang, Yifei Ma, Wei Tan,
- Abstract要約: DRAFT-RLは、Chain-of-Draft(CoD)推論をマルチエージェントRLトレーニングに統合する新しいフレームワークである。
我々は、コード合成、記号数学、知識集約型QAを含む複雑な推論タスクについて評価する。
- 参考スコア(独自算出の注目度): 8.532777609640268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown impressive capabilities in multi-step reasoning and problem-solving.Recent works introduce multi-agent reflection frameworks where multiple LLM agents critique and refine each other's outputs using reinforcement learning (RL). However, these approaches often rely on single-shot responses and lack structural diversity in reasoning exploration. In this paper, we propose DRAFT-RL, a novel framework that integrates Chain-of-Draft (CoD) reasoning into multi-agent RL training. Instead of generating single responses, each agent produces multiple drafts per query, which are then evaluated by peer agents and a learned reward model to identify the most promising trajectory. These selected drafts are used to refine future reasoning strategies through actor-critic learning.DRAFT-RL enables explicit multi-path exploration, peer-guided reflection, and reward-aligned selection, resulting in more robust and interpretable LLM agent behavior. We evaluate our method on complex reasoning tasks including code synthesis, symbolic math, and knowledge-intensive QA,demonstrating that DRAFT-RL outperforms existing reflective and RL-based agents by significant margins in both accuracy and convergence speed
- Abstract(参考訳): 大規模言語モデル(LLM)は多段階推論と問題解決において顕著な能力を示しており、近年の研究では複数のLLMエージェントが強化学習(RL)を用いて相互の出力を批判・洗練するマルチエージェントリフレクションフレームワークが導入されている。
しかしながら、これらのアプローチはしばしば単発応答に依存し、推論探索において構造的な多様性が欠如している。
本稿では,マルチエージェントRLトレーニングにChain-of-Draft(CoD)推論を統合する新しいフレームワークであるDRAFT-RLを提案する。
単一の応答を生成する代わりに、各エージェントはクエリ毎に複数のドラフトを生成し、ピアエージェントと学習された報酬モデルによって評価され、最も有望な軌道を特定する。
DRAFT-RLは、明示的なマルチパス探索、ピア誘導反射、報酬整合選択を可能にし、より堅牢で解釈可能なLLMエージェントの挙動をもたらす。
我々は、コード合成、記号数学、知識集約型QAを含む複雑な推論タスクにおいて、DRAFT-RLが既存の反射型およびRLベースのエージェントを精度と収束速度の両方において有意な差で上回っていることを示す。
関連論文リスト
- AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Reward Design [35.544075583073685]
マルチターンRLアルゴリズムとエージェント応用のためのテキストターンレベルの報酬設計に関する最初の体系的研究について述べる。
我々は、多ターン推論強化検索エージェントのケーススタディを行い、検証可能とLCM-as-judgeの2種類のターンレベルの報酬を慎重に設計する。
マルチターン探索タスクの実験により、適切に設計されたターンレベルの報酬を組み込むことで、RLアルゴリズムは軌道レベルの報酬でベースライン法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-05-17T04:09:46Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Enhancing LLM Reasoning with Multi-Path Collaborative Reactive and Reflection agents [26.645038049346255]
マルチパス推論(Multi-Path Reasoning:RR-MP)フレームワークを用いたリアクティブおよびリフレクションエージェントを提案する。
提案手法は,マルチパス推論機構を用いて科学的推論精度を向上させる。
道徳的シナリオ,大学レベルの物理,数学に関わる課題について,ゼロショットと少数ショットの評価を行った。
論文 参考訳(メタデータ) (2024-12-31T13:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。