論文の概要: Tree Search for LLM Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.21240v1
- Date: Thu, 25 Sep 2025 14:37:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.986323
- Title: Tree Search for LLM Agent Reinforcement Learning
- Title(参考訳): LLMエージェント強化学習のための木探索
- Authors: Yuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu,
- Abstract要約: Tree-based Group Relative Policy Optimization (Tree-GRPO) は、木探索に基づくグループ化エージェントRL法である。
共通のプレフィックスを共有することで、ツリー検索サンプリングは、達成可能なロールアウトの数を増やす。
木レベルでの相対的政策最適化の目的は、ステップレベルの直接選好学習と同等であることを示す。
- 参考スコア(独自算出の注目度): 23.7084695563981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reinforcement learning (RL) have significantly enhanced the agentic capabilities of large language models (LLMs). In long-term and multi-turn agent tasks, existing approaches driven solely by outcome rewards often suffer from the problem of sparse supervision. To address the challenge, we propose Tree-based Group Relative Policy Optimization (Tree-GRPO), a grouped agent RL method based on tree search, where each tree node represents the complete agent interaction step. By sharing common prefixes, the tree search sampling increases the number of rollouts achievable within a fixed budget of tokens or tool calls. Moreover, we find that the tree-structured trajectory naturally allows the construction of step-wise process supervised signals even using only the outcome reward. Based on this, Tree-GRPO estimates the grouped relative advantages both on intra-tree and inter-tree levels. Through theoretical analysis, we demonstrate that the objective of intra-tree level group relative policy optimization is equivalent to that of step-level direct preference learning. Experiments across 11 datasets and 3 types of QA tasks demonstrate the superiority of the proposed tree-based RL over the chain-based RL method.
- Abstract(参考訳): 近年の強化学習(RL)は,大規模言語モデル(LLM)のエージェント能力を大幅に向上させた。
長期・多ターンエージェントタスクでは、結果報酬のみによって駆動される既存のアプローチは、スパース管理の問題に悩まされることが多い。
そこで本研究では,木探索に基づくグループ化エージェントRL手法であるTree-GRPOを提案する。
共通のプレフィックスを共有することで、ツリー検索サンプリングは、トークンやツールコールの固定予算内で達成可能なロールアウト数を増やす。
さらに,木構造トラジェクトリは,結果報酬のみを用いても,ステップワイズプロセスの教師付き信号の構築が自然に可能であることがわかった。
これに基づいて、Tree-GRPOは、木内レベルと木間レベルの両方でグループ化された相対的な利点を推定する。
理論的解析により,木レベルグループ間の相対的政策最適化の目的がステップレベルの直接選好学習の目的と等価であることを実証した。
11のデータセットと3種類のQAタスクにまたがる実験は、チェーンベースRL法よりも提案されたツリーベースRLの方が優れていることを示す。
関連論文リスト
- TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - TreeRL: LLM Reinforcement Learning with On-Policy Tree Search [36.08914596340525]
木探索による強化学習(RL)は,従来の推論タスクにおいて優れた性能を示した。
本稿では、RL学習のためのオンラインツリー検索を直接組み込んだ強化学習フレームワークであるTreeRLを提案する。
論文 参考訳(メタデータ) (2025-06-13T15:52:37Z) - TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。
タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。
視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-06-12T05:25:35Z) - TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z) - RL-LLM-DT: An Automatic Decision Tree Generation Method Based on RL Evaluation and LLM Enhancement [82.02155942106877]
RL評価とLLM強調に基づく自動決定木生成法であるRL-LLM-DTを提案する。
この統合手法の有効性を評価するため,カーリングゲームで実験を行った。
論文 参考訳(メタデータ) (2024-12-16T03:33:49Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - Conditionally Optimistic Exploration for Cooperative Deep Multi-Agent
Reinforcement Learning [24.05715475457959]
協調型マルチエージェント強化学習(MARL)における効率的な探索の重要性
本研究では,逐次的行動計算の考え方に基づく協調探索を効果的に促進する探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T02:05:16Z) - RLET: A Reinforcement Learning Based Approach for Explainable QA with
Entailment Trees [47.745218107037786]
本稿では,強化学習に基づくEntailment Tree生成フレームワークであるRLETを提案する。
RLETは文の選択と推論生成モジュールによる単一ステップ推論を反復的に行う。
EntailmentBankデータセットの3つの設定の実験では、RLフレームワークを使用することの強みが示されている。
論文 参考訳(メタデータ) (2022-10-31T06:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。