論文の概要: AT$^2$PO: Agentic Turn-based Policy Optimization via Tree Search
- arxiv url: http://arxiv.org/abs/2601.04767v1
- Date: Thu, 08 Jan 2026 09:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.140504
- Title: AT$^2$PO: Agentic Turn-based Policy Optimization via Tree Search
- Title(参考訳): AT$2$PO: 木探索によるエージェントターン型ポリシー最適化
- Authors: Zefang Zong, Dingwei Chen, Yang Li, Qi Yi, Bo Zhou, Chengming Li, Bo Qian, Peng Chen, Jie Jiang,
- Abstract要約: LLMエージェントは、内部推論と外部ツールの相互作用をインターリーブすることによって、マルチターンタスクに対処する強力なシステムとして登場した。
マルチターンエージェントRLのための統合フレームワークであるAT$2$POを提案する。
- 参考スコア(独自算出の注目度): 19.443576967819684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM agents have emerged as powerful systems for tackling multi-turn tasks by interleaving internal reasoning and external tool interactions. Agentic Reinforcement Learning has recently drawn significant research attention as a critical post-training paradigm to further refine these capabilities. In this paper, we present AT$^2$PO (Agentic Turn-based Policy Optimization via Tree Search), a unified framework for multi-turn agentic RL that addresses three core challenges: limited exploration diversity, sparse credit assignment, and misaligned policy optimization. AT$^2$PO introduces a turn-level tree structure that jointly enables Entropy-Guided Tree Expansion for strategic exploration and Turn-wise Credit Assignment for fine-grained reward propagation from sparse outcomes. Complementing this, we propose Agentic Turn-based Policy Optimization, a turn-level learning objective that aligns policy updates with the natural decision granularity of agentic interactions. ATPO is orthogonal to tree search and can be readily integrated into any multi-turn RL pipeline. Experiments across seven benchmarks demonstrate consistent improvements over the state-of-the-art baseline by up to 1.84 percentage points in average, with ablation studies validating the effectiveness of each component. Our code is available at https://github.com/zzfoutofspace/ATPO.
- Abstract(参考訳): LLMエージェントは、内部推論と外部ツールの相互作用をインターリーブすることによって、マルチターンタスクに対処する強力なシステムとして登場した。
エージェント強化学習は、最近、これらの能力をさらに洗練するための訓練後パラダイムとして重要な研究の注目を集めている。
本稿では,AT^2$PO (Agentic Turn-based Policy Optimization via Tree Search)を提案する。
AT$2$POは、戦略的探索のためのEntropy-Guided Tree Expansionと、スパース結果からの微粒な報酬伝達のためのTurn-wise Credit Assignmentを共同で実現したターンレベルツリー構造を導入している。
本稿では,エージェント間相互作用の自然な決定粒度とポリシー更新を整合させるターンレベルの学習目標であるエージェントターンに基づくポリシー最適化を提案する。
ATPOは木の探索に直交しており、任意のマルチターンRLパイプラインに容易に統合できる。
7つのベンチマークによる実験では、最先端のベースラインに対する一貫した改善が平均1.84ポイントまで改善され、各コンポーネントの有効性が検証された。
私たちのコードはhttps://github.com/zzfoutofspace/ATPO.comで利用可能です。
関連論文リスト
- Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。
既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:32Z) - Tree Search for LLM Agent Reinforcement Learning [23.7084695563981]
Tree-based Group Relative Policy Optimization (Tree-GRPO) は、木探索に基づくグループ化エージェントRL法である。
共通のプレフィックスを共有することで、ツリー検索サンプリングは、達成可能なロールアウトの数を増やす。
木レベルでの相対的政策最適化の目的は、ステップレベルの直接選好学習と同等であることを示す。
論文 参考訳(メタデータ) (2025-09-25T14:37:09Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Fleet of Agents: Coordinated Problem Solving with Large Language Models [10.167121757937062]
Fleet of Agents(FoA)は、動的ツリー検索をナビゲートするエージェントとして大きな言語モデルを利用する、原則化されたフレームワークである。
FoAは多数のエージェントを発生させ、それぞれが自律的に検索空間を探索し、次に選択フェーズを行う。
FoAはすべてのベンチマーク手法の中で最高のコスト品質のトレードオフを実現し、FoA + LMA3.2-11BはLlama3.2-90Bモデルを上回る。
論文 参考訳(メタデータ) (2024-05-07T09:36:23Z) - HUGO -- Highlighting Unseen Grid Options: Combining Deep Reinforcement Learning with a Heuristic Target Topology Approach [1.0874597293913013]
本稿では,従来のDRLエージェントであるCurriculumAgent(CAgent)を新たなトポロジエージェントにアップグレードする検索アルゴリズムを提案する。
TTを含む中央値生存時間は25%向上した。
論文 参考訳(メタデータ) (2024-05-01T16:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。