論文の概要: NaviAgent: Bilevel Planning on Tool Dependency Graphs for Function Calling
- arxiv url: http://arxiv.org/abs/2506.19500v1
- Date: Tue, 24 Jun 2025 10:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.596933
- Title: NaviAgent: Bilevel Planning on Tool Dependency Graphs for Function Calling
- Title(参考訳): NaviAgent: 関数呼び出しのためのツール依存グラフのバイレベル計画
- Authors: Yan Jiang, Hao Zhou, LiZhong GU, Ai Han, TianLong Li,
- Abstract要約: NaviAgentは、堅牢な関数呼び出しのためのグラフナビゲートされたバイレベル計画アーキテクチャである。
LLMを動力とするエージェントとして、Multi-Path Deciderは4次元決定空間を定義する。
Graph-Encoded NavigatorはTool Dependency Heterogeneous Graphを構築する。
- 参考スコア(独自算出の注目度): 13.40577157850352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs' reliance on static knowledge and fragile tool invocation severely hinders the orchestration of complex, heterogeneous toolchains, particularly at large scales. Existing methods typically use rigid single-path execution, resulting in poor error recovery and exponentially growing search spaces. We introduce NaviAgent, a graph-navigated bilevel planning architecture for robust function calling, comprising a Multi-Path Decider and Graph-Encoded Navigator. As an LLM-powered agent, the Multi-Path Decider defines a four-dimensional decision space and continuously perceives environmental states, dynamically selecting the optimal action to fully cover all tool invocation scenarios. The Graph-Encoded Navigator constructs a Tool Dependency Heterogeneous Graph (TDHG), where node embeddings explicitly fuse API schema structure with historical invocation behavior. It also integrates a novel heuristic search strategy that guides the Decider toward efficient and highly successful toolchains, even for unseen tool combinations. Experiments show that NaviAgent consistently achieves the highest task success rate (TSR) across all foundation models and task complexities, outperforming the average baselines (ReAct, ToolLLM, {\alpha}-UMI) by 13.5%, 16.4%, and 19.0% on Qwen2.5-14B, Qwen2.5-32B, and Deepseek-V3, respectively. Its execution steps are typically within one step of the most efficient baseline, ensuring a strong balance between quality and efficiency. Notably, a fine-tuned Qwen2.5-14B model achieves a TSR of 49.5%, surpassing the much larger 32B model (44.9%) under our architecture. Incorporating the Graph-Encoded Navigator further boosts TSR by an average of 2.4 points, with gains up over 9 points on complex tasks for larger models (Deepseek-V3 and GPT-4o), highlighting its essential role in toolchain orchestration.
- Abstract(参考訳): LLMの静的知識と脆弱なツールの実行への依存は、特に大規模において、複雑で異質なツールチェーンのオーケストレーションを著しく妨げます。
既存の手法では厳格な単一パス実行が一般的であり、エラー回復が不十分で探索空間が指数関数的に増大する。
マルチパスデシダとグラフ符号化ナビゲータを組み合わせた,堅牢な関数呼び出しのためのグラフナビゲートバイレベル計画アーキテクチャであるNaviAgentを紹介する。
LLMを利用したエージェントとして、Multi-Path Deciderは4次元の決定空間を定義し、環境状態を継続的に知覚し、すべてのツール実行シナリオを完全にカバーする最適なアクションを動的に選択する。
Graph-Encoded NavigatorはTool Dependency Heterogeneous Graph (TDHG)を構築する。
また、新しいヒューリスティックな検索戦略を統合することで、Deciderは、目に見えないツールの組み合わせであっても、効率的で高い成功率のツールチェーンへと導いてくれる。
実験の結果、NaviAgentは、すべての基礎モデルとタスクの複雑さで、Qwen2.5-14B、Qwen2.5-32B、Deepseek-V3の平均ベースライン(ReAct、ToolLLM、 {\alpha}-UMI)をそれぞれ13.5%、Qwen2.5-14B、19.0%上回った。
その実行ステップは一般的に最も効率的なベースラインの1ステップ以内にあり、品質と効率のバランスが強くなります。
特に、微調整されたQwen2.5-14Bモデルは49.5%のTSRを実現し、アーキテクチャの32Bモデル(44.9%)をはるかに上回っている。
Graph-Encoded Navigatorを組み込むことで、TSRが平均2.4ポイント向上し、大規模なモデル(Deepseek-V3とGPT-4o)の複雑なタスクで9ポイント以上向上する。
関連論文リスト
- AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - Guided Search Strategies in Non-Serializable Environments with Applications to Software Engineering Agents [31.651748374218446]
大規模言語モデル(LLM)は、最近、複雑な多段階タスクにおいて顕著な成果を上げている。
彼らはしばしば、複数のソリューションを試して一貫したパフォーマンスを維持するのに苦労する。
論文 参考訳(メタデータ) (2025-05-19T18:50:15Z) - GeoBenchX: Benchmarking LLMs for Multistep Geospatial Tasks [0.0]
Sonnet 3.5 と GPT-4o は最高性能を達成し、Claude モデルは解決可能なタスクに優れていた。
一般的な誤りには、幾何学的関係の誤解、時代遅れの知識への依存、非効率的なデータ操作などがある。
論文 参考訳(メタデータ) (2025-03-23T16:20:14Z) - PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。
PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。
私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文 参考訳(メタデータ) (2024-10-14T11:30:18Z) - GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Models [58.08177466768262]
大規模言語モデル(LLM)では、複雑なロングコンテクストのタスクに対処するためには、ロングコンテクストの能力が不可欠である。
グラフをグラフに構造化し、エージェントを使ってグラフを自律的に探索することで、長いテキストを扱うように設計されたグラフベースのエージェントシステムであるGraphReaderを紹介する。
LV-Evalデータセットの実験結果によると、GraphReaderは4kコンテキストウィンドウを使用して、16kから256kまでのコンテキスト長で一貫してGPT-4-128kを上回っている。
論文 参考訳(メタデータ) (2024-06-20T17:57:51Z) - ToolChain*: Efficient Action Space Navigation in Large Language Models
with A* Search [36.142986105945894]
大規模言語モデル(LLM)は強力な意思決定と計画能力を示している。
LLMエージェントのための効率的な木探索型計画アルゴリズムであるToolChain*を提案する。
アクション空間全体を決定ツリーとして定式化し、各ノードはソリューション計画に関わるAPI関数呼び出しを表現します。
論文 参考訳(メタデータ) (2023-10-20T02:24:35Z) - Learning Graph-Enhanced Commander-Executor for Multi-Agent Navigation [28.71585436726336]
マルチエージェント強化学習(MARL)では,この問題の解決に有望な結果が得られた。
目標条件付き階層型強化学習(HRL)は、この課題に取り組むための有望な方向性を提供する。
マルチエージェントナビゲーションタスクのためのグラフベースのゴール条件階層手法であるMAGE-Xを提案する。
論文 参考訳(メタデータ) (2023-02-08T14:44:21Z) - Constructing Stronger and Faster Baselines for Skeleton-based Action
Recognition [19.905455701387194]
骨格に基づく行動認識のための効率的なグラフ畳み込みネットワーク(GCN)のベースラインを提案する。
NTU RGB+D 60 と 120 の2つの大規模データセットでは、提案されたEfficientGCN-B4 ベースラインは、他の State-Of-The-Art (SOTA) メソッドよりも優れている。
論文 参考訳(メタデータ) (2021-06-29T07:09:11Z) - Learning to Generate Content-Aware Dynamic Detectors [62.74209921174237]
サンプル適応型モデルアーキテクチャを自動的に生成する効率的な検出器の設計を新たに導入する。
動的ルーティングの学習を導くために、オブジェクト検出に適したコースツーファインの成層図を紹介します。
MS-COCOデータセットの実験により、CADDetはバニラルーティングに比べて10%少ないFLOPで1.8以上のmAPを達成することが示された。
論文 参考訳(メタデータ) (2020-12-08T08:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。