論文の概要: Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment
- arxiv url: http://arxiv.org/abs/2505.11821v1
- Date: Sat, 17 May 2025 04:09:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.870996
- Title: Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment
- Title(参考訳): ターンレベルクレジットアサインメントによるLLMエージェントのマルチスレッド推論の強化
- Authors: Siliang Zeng, Quan Wei, William Brown, Oana Frunza, Yuriy Nevmyvaka, Mingyi Hong,
- Abstract要約: 本稿では,強化学習(RL)を用いた大規模言語モデル(LLM)エージェントの推論能力向上のためのアプローチを検討する。
マルチターンエージェントのインタラクションにおいて、より正確なクレジット割り当てを可能にするための、きめ細かいターンレベルの利点推定戦略を導入する。
本手法は,ツール実行における100%の成功と,正解マッチングにおける50%の精度を実現し,ベースラインを著しく上回る結果を得た。
- 参考スコア(独自算出の注目度): 29.617927643991877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates approaches to enhance the reasoning capabilities of Large Language Model (LLM) agents using Reinforcement Learning (RL). Specifically, we focus on multi-turn tool-use scenarios, which can be naturally modeled as Markov Decision Processes (MDPs). While existing approaches often train multi-turn LLM agents with trajectory-level advantage estimation in bandit settings, they struggle with turn-level credit assignment across multiple decision steps, limiting their performance on multi-turn reasoning tasks. To address this, we introduce a fine-grained turn-level advantage estimation strategy to enable more precise credit assignment in multi-turn agent interactions. The strategy is general and can be incorporated into various RL algorithms such as Group Relative Preference Optimization (GRPO). Our experimental evaluation on multi-turn reasoning and search-based tool-use tasks with GRPO implementations highlights the effectiveness of the MDP framework and the turn-level credit assignment in advancing the multi-turn reasoning capabilities of LLM agents in complex decision-making settings. Our method achieves 100% success in tool execution and 50% accuracy in exact answer matching, significantly outperforming baselines, which fail to invoke tools and achieve only 20-30% exact match accuracy.
- Abstract(参考訳): 本稿では,Reinforcement Learning (RL) を用いたLarge Language Model (LLM) エージェントの推論能力向上のためのアプローチを検討する。
具体的には、マルコフ決定プロセス(MDP)として自然にモデル化できるマルチターンツールの使用シナリオに焦点を当てる。
既存のアプローチでは,マルチターンLDMエージェントをトラジェクトリレベルの優位性評価でトレーニングすることが多いが,複数ステップにわたるターンレベルのクレジット割り当てに苦労し,マルチターン推論タスクのパフォーマンスを制限している。
そこで本稿では,マルチターンエージェントのインタラクションにおいて,より正確なクレジット割り当てを可能にするために,詳細なターンレベルの優位性推定手法を提案する。
この戦略は汎用的であり、グループ相対選好最適化(GRPO)のような様々なRLアルゴリズムに組み込むことができる。
GRPO実装を用いた多ターン推論および検索ツール利用タスクの実験評価では、複雑な意思決定環境下でのLLMエージェントの多ターン推論能力向上におけるMDPフレームワークの有効性とターンレベルのクレジット割り当てが強調されている。
本手法は,ツール実行における100%の成功と,正確な回答マッチングにおける50%の精度を実現し,ツールの実行に失敗し,20~30%の精度しか達成できないベースラインを著しく上回っている。
関連論文リスト
- Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Efficient Reinforcement Learning with Large Language Model Priors [18.72288751305885]
大規模言語モデル(LLM)は、最近、強力な汎用ツールとして登場した。
本稿では,従来の行動分布としてLLMを扱い,それらをRLフレームワークに統合することを提案する。
LLMに基づくアクションの事前処理を取り入れることで、探索と複雑性の最適化が大幅に削減されることを示す。
論文 参考訳(メタデータ) (2024-10-10T13:54:11Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。