論文の概要: PhGPO: Pheromone-Guided Policy Optimization for Long-Horizon Tool Planning
- arxiv url: http://arxiv.org/abs/2602.13691v1
- Date: Sat, 14 Feb 2026 09:24:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.345209
- Title: PhGPO: Pheromone-Guided Policy Optimization for Long-Horizon Tool Planning
- Title(参考訳): PhGPO:Pheromone-Guided Policy Optimization for Long-Horizon Tool Planning
- Authors: Yu Li, Guangfeng Cai, Shengtian Yang, Han Luo, Shuo Han, Xu He, Dong Li, Lei Feng,
- Abstract要約: 歴史的に成功した軌道には再利用可能なツール・トランジション・パターンが含まれており、トレーニングプロセス全体を通して活用できると我々は主張する。
フェロモンによって歴史的に成功した経路を反映できるアリコロニー最適化に着想を得て,フェロモン誘導政策最適化を提案する。
この学習されたフェロモンは、歴史的に成功したツールトランジションに対してポリシーを最適化する明示的で再利用可能なガイダンスを提供する。
- 参考スコア(独自算出の注目度): 23.155758100439773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Model (LLM) agents have demonstrated strong capabilities in executing complex tasks through tool use. However, long-horizon multi-step tool planning is challenging, because the exploration space suffers from a combinatorial explosion. In this scenario, even when a correct tool-use path is found, it is usually considered an immediate reward for current training, which would not provide any reusable information for subsequent training. In this paper, we argue that historically successful trajectories contain reusable tool-transition patterns, which can be leveraged throughout the whole training process. Inspired by ant colony optimization where historically successful paths can be reflected by the pheromone, we propose Pheromone-Guided Policy Optimization (PhGPO), which learns a trajectory-based transition pattern (i.e., pheromone) from historical trajectories and then uses the learned pheromone to guide policy optimization. This learned pheromone provides explicit and reusable guidance that steers policy optimization toward historically successful tool transitions, thereby improving long-horizon tool planning. Comprehensive experimental results demonstrate the effectiveness of our proposed PhGPO.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントの最近の進歩は、ツール使用による複雑なタスクの実行において強力な能力を示している。
しかし、長期にわたる多段階のツールプランニングは、探査空間が複合爆発に苦しむため困難である。
このシナリオでは、たとえ正しいツールの使用経路が見つかったとしても、通常は現在のトレーニングに対する即時報酬と見なされ、その後のトレーニングには再利用可能な情報を提供しない。
本稿では、歴史的に成功した軌道には再利用可能なツール・トランジション・パターンが含まれており、トレーニングプロセス全体を通して活用することができると論じる。
歴史的に成功した経路をフェロモンで反映できるアリコロニー最適化にインスパイアされたフェロモン誘導政策最適化(PhGPO)を提案する。
この学習されたフェロモンは、ポリシーの最適化を歴史的に成功したツール移行に向け、明示的で再利用可能なガイダンスを提供する。
提案したPhGPOの有効性を総合的な実験により実証した。
関連論文リスト
- Look Further Ahead: Testing the Limits of GPT-4 in Path Planning [9.461626534488117]
大きな言語モデル(LLM)は、様々なタスクで印象的な機能を示している。
提案するベンチマークは,複雑な環境でのパス計画スキルを体系的にテストする。
フレーミングはPythonのコードとして促進され、長い軌道上のタスクを分解することで、GPT-4の経路計画の有効性が向上することがわかった。
論文 参考訳(メタデータ) (2024-06-17T18:12:56Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Latent Plan Transformer for Trajectory Abstraction: Planning as Latent Space Inference [53.419249906014194]
オフライン強化学習から得られたデータセットを用いた計画のための生成モデルについて検討する。
本稿では,Transformerベースのトラジェクトリジェネレータと最終戻り値との接続に潜時変数を利用する新しいモデルであるLatent Plan Transformerを紹介する。
論文 参考訳(メタデータ) (2024-02-07T08:18:09Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals [14.315501760755609]
PlanGANは、スパース報酬のある環境におけるマルチゴールタスクを解くためのモデルベースのアルゴリズムである。
本研究は,PlanGANが4~8倍の効率で,同等の性能を達成できることを示唆する。
論文 参考訳(メタデータ) (2020-06-01T12:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。