論文の概要: NaviAgent: Bilevel Planning on Tool Navigation Graph for Large-Scale Orchestration
- arxiv url: http://arxiv.org/abs/2506.19500v2
- Date: Fri, 31 Oct 2025 14:24:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 15:46:17.341844
- Title: NaviAgent: Bilevel Planning on Tool Navigation Graph for Large-Scale Orchestration
- Title(参考訳): NaviAgent: 大規模オーケストレーションのためのツールナビゲーショングラフのバイレベル計画
- Authors: Yan Jiang, Hao Zhou, LiZhong GU, Ai Han, TianLong Li,
- Abstract要約: 大規模言語モデル(LLM)は、最近、外部ツールを呼び出すことによって関数呼び出しエージェントとして機能する機能を示した。
そこで我々は,タスクプランニングをツール実行からツールエコシステムのグラフベースモデリングを通じて分離するNaviAgentを提案する。
実験によると、NaviAgentはモデルとタスク間で最高のタスク成功率を達成し、TWMNを統合することで、複雑なタスクで最大17ポイントパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 13.925896302382043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently demonstrated the ability to act as function call agents by invoking external tools, enabling them to solve tasks beyond their static knowledge. However, existing agents typically call tools step by step at a time without a global view of task structure. As tools depend on each other, this leads to error accumulation and limited scalability, particularly when scaling to thousands of tools. To address these limitations, we propose NaviAgent, a novel bilevel architecture that decouples task planning from tool execution through graph-based modeling of the tool ecosystem. At the task-planning level, the LLM-based agent decides whether to respond directly, clarify user intent, invoke a toolchain, or execute tool outputs, ensuring broad coverage of interaction scenarios independent of inter-tool complexity. At the execution level, a continuously evolving Tool World Navigation Model (TWNM) encodes structural and behavioral relations among tools, guiding the agent to generate scalable and robust invocation sequences. By incorporating feedback from real tool interactions, NaviAgent supports closed-loop optimization of planning and execution, moving beyond tool calling toward adaptive navigation of large-scale tool ecosystems. Experiments show that NaviAgent achieves the best task success rates across models and tasks, and integrating TWMN further boosts performance by up to 17 points on complex tasks, underscoring its key role in toolchain orchestration.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、外部ツールを呼び出すことによって関数呼び出しエージェントとして機能する機能を示し、静的な知識を超えたタスクを解決した。
しかし、既存のエージェントは通常、タスク構造をグローバルに見ることなく、ステップバイステップでツールを呼び出す。
ツールは互いに依存しているため、特に数千のツールにスケールアップする場合、エラーの蓄積とスケーラビリティの制限につながる。
これらの制限に対処するために,ツールエコシステムのグラフベースのモデリングを通じてタスク計画とツール実行を分離する,新しいバイレベルアーキテクチャであるNaviAgentを提案する。
タスク計画レベルでは、LDMベースのエージェントは、直接応答するか、ユーザ意図を明確にするか、ツールチェーンを呼び出すか、ツール出力を実行するかを決定し、ツール間複雑性とは無関係に、インタラクションシナリオの広範なカバレッジを保証する。
実行レベルにおいて、継続的に進化するツールワールドナビゲーションモデル(TWNM)は、ツール間の構造的および行動的関係を符号化し、エージェントにスケーラブルで堅牢な呼び出しシーケンスを生成するように誘導する。
実際のツールインタラクションからのフィードバックを取り入れることで、NaviAgentは計画と実行のクローズドループ最適化をサポートし、ツール呼び出しを越えて、大規模ツールエコシステムの適応ナビゲーションへと移行する。
実験によると、NaviAgentはモデルとタスク間で最高のタスク成功率を達成し、TWMNを統合することで、複雑なタスクにおいて最大17ポイントのパフォーマンスが向上し、ツールチェーンオーケストレーションにおいて重要な役割を担っている。
関連論文リスト
- AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - Guided Search Strategies in Non-Serializable Environments with Applications to Software Engineering Agents [31.651748374218446]
大規模言語モデル(LLM)は、最近、複雑な多段階タスクにおいて顕著な成果を上げている。
彼らはしばしば、複数のソリューションを試して一貫したパフォーマンスを維持するのに苦労する。
論文 参考訳(メタデータ) (2025-05-19T18:50:15Z) - Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning [69.32855772335624]
コントローラ、例えば視覚言語モデルと外部ツールを統合するマルチモーダルエージェントは、複雑なマルチモーダルタスクに対処する際、顕著な能力を示した。
これらのエージェントを訓練するための既存のアプローチは、広範囲なヒューマン・アノテートされたタスク・アンサー・ペアとツール・トラジェクトリに依存している。
本研究では,事前に収集したデータのないマルチモーダルエージェント,すなわち SPORT の反復ツール利用探索手法を提案する。
Sportには、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントがある。
論文 参考訳(メタデータ) (2025-04-30T12:01:27Z) - GeoBenchX: Benchmarking LLMs for Multistep Geospatial Tasks [0.0]
Sonnet 3.5 と GPT-4o は最高性能を達成し、Claude モデルは解決可能なタスクに優れていた。
一般的な誤りには、幾何学的関係の誤解、時代遅れの知識への依存、非効率的なデータ操作などがある。
論文 参考訳(メタデータ) (2025-03-23T16:20:14Z) - PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。
PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。
私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文 参考訳(メタデータ) (2024-10-14T11:30:18Z) - APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets [99.8988504388011]
APIGenは、関数呼び出しアプリケーションのための検証可能な高品質データセットを合成するために設計された、自動データ生成パイプラインである。
APIGenを活用して、21のカテゴリにわたる3,673の実行可能なAPIを収集し、多様な関数呼び出しデータセットを生成します。
機能呼び出しエージェントドメインの分野を推し進めるため、6万の高品質なエントリを含むデータセットをリリースする。
論文 参考訳(メタデータ) (2024-06-26T17:49:11Z) - GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Models [58.08177466768262]
大規模言語モデル(LLM)では、複雑なロングコンテクストのタスクに対処するためには、ロングコンテクストの能力が不可欠である。
グラフをグラフに構造化し、エージェントを使ってグラフを自律的に探索することで、長いテキストを扱うように設計されたグラフベースのエージェントシステムであるGraphReaderを紹介する。
LV-Evalデータセットの実験結果によると、GraphReaderは4kコンテキストウィンドウを使用して、16kから256kまでのコンテキスト長で一貫してGPT-4-128kを上回っている。
論文 参考訳(メタデータ) (2024-06-20T17:57:51Z) - ToolChain*: Efficient Action Space Navigation in Large Language Models
with A* Search [36.142986105945894]
大規模言語モデル(LLM)は強力な意思決定と計画能力を示している。
LLMエージェントのための効率的な木探索型計画アルゴリズムであるToolChain*を提案する。
アクション空間全体を決定ツリーとして定式化し、各ノードはソリューション計画に関わるAPI関数呼び出しを表現します。
論文 参考訳(メタデータ) (2023-10-20T02:24:35Z) - Learning Graph-Enhanced Commander-Executor for Multi-Agent Navigation [28.71585436726336]
マルチエージェント強化学習(MARL)では,この問題の解決に有望な結果が得られた。
目標条件付き階層型強化学習(HRL)は、この課題に取り組むための有望な方向性を提供する。
マルチエージェントナビゲーションタスクのためのグラフベースのゴール条件階層手法であるMAGE-Xを提案する。
論文 参考訳(メタデータ) (2023-02-08T14:44:21Z) - Constructing Stronger and Faster Baselines for Skeleton-based Action
Recognition [19.905455701387194]
骨格に基づく行動認識のための効率的なグラフ畳み込みネットワーク(GCN)のベースラインを提案する。
NTU RGB+D 60 と 120 の2つの大規模データセットでは、提案されたEfficientGCN-B4 ベースラインは、他の State-Of-The-Art (SOTA) メソッドよりも優れている。
論文 参考訳(メタデータ) (2021-06-29T07:09:11Z) - Learning to Generate Content-Aware Dynamic Detectors [62.74209921174237]
サンプル適応型モデルアーキテクチャを自動的に生成する効率的な検出器の設計を新たに導入する。
動的ルーティングの学習を導くために、オブジェクト検出に適したコースツーファインの成層図を紹介します。
MS-COCOデータセットの実験により、CADDetはバニラルーティングに比べて10%少ないFLOPで1.8以上のmAPを達成することが示された。
論文 参考訳(メタデータ) (2020-12-08T08:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。