論文の概要: Beyond State Machines: Executing Network Procedures with Agentic Tool-Calling Sequences
- arxiv url: http://arxiv.org/abs/2605.02584v1
- Date: Mon, 04 May 2026 13:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.305373
- Title: Beyond State Machines: Executing Network Procedures with Agentic Tool-Calling Sequences
- Title(参考訳): Beyond State Machines: エージェントツール計算シーケンスによるネットワークプロシージャの実行
- Authors: Purna Sai Garigipati, Onur Ayan, Kishor Chandra Joshi, Xueli An,
- Abstract要約: 大規模言語モデル(LLM)ベースのネットワークAIエージェントを使用して、ツール呼び出しのシーケンスとして表現されたネットワークプロシージャを実行することができる。
そこで本研究では,エージェントがプロシージャの取得方法と,エージェントとツール間の実行方法が異なる4つのアプローチについて検討する。
- 参考スコア(独自算出の注目度): 3.14370243265882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic AI will be an essential enabling technology for designing future mobile communication systems, which could provide flexible and customized services, automate complex network operations, and drive autonomous decision-making across the network. This work studies how Large Language Model (LLM)-based network AI agents can be utilized to execute network procedures expressed as sequences of tool invocations. We investigate four approaches, which differ in how the agent obtains the procedure and in how execution is distributed between the agent and the underlying tools. We evaluated the latency and execution correctness across these approaches using a User Equipment (UE) IP allocation procedure as a case study. Furthermore, we conduct a stress test to examine how many sequential procedural steps an LLM agent can reliably execute before failure. Our results show that approaches relying on iterative agent-side reasoning incur higher latency and are more prone to execution errors, while approaches where the procedure is encapsulated within a single tool, which internally orchestrates the required steps by invoking other tools, reduce latency by limiting repeated reasoning. The stress-test results further show that the model with advanced tool-calling capability maintains reliable execution over longer procedures than the other evaluated models; however, all models exhibit reliability degradation as procedure length increases, revealing clear execution limits in multi-step tool-based workflows. To systematically analyze failures in procedure execution, we introduce a procedure-specific error taxonomy that categorizes deviations in multi-step procedural execution.
- Abstract(参考訳): エージェントAIは、フレキシブルでカスタマイズされたサービスを提供し、複雑なネットワーク操作を自動化し、ネットワーク全体の自律的な意思決定を促進する、将来のモバイル通信システムの設計に不可欠な技術である。
本研究では,Large Language Model (LLM)ベースのネットワークAIエージェントを用いて,ツール呼び出しのシーケンスとして表現されたネットワークプロシージャを実行する方法について検討する。
そこで本研究では,エージェントがプロシージャの取得方法と,エージェントとツール間の実行方法が異なる4つのアプローチについて検討する。
ユーザ機器(UE)のIP割り当て手順を事例として,これらの手法のレイテンシと実行精度を評価した。
さらに,LLMエージェントが故障前に確実に実行できるシーケンシャルな手続きステップ数を調べるために,ストレステストを実施している。
以上の結果から,反復的エージェント側推論に依存するアプローチではレイテンシが高く,実行エラーが生じる傾向がみられ,一方,プロシージャを単一のツールにカプセル化するアプローチでは,他のツールを呼び出して必要なステップを内部的にオーケストレーションし,繰り返し推論を制限することでレイテンシを低減することができた。
ストレステストの結果、高度なツールコール機能を持つモデルは、他の評価モデルよりも長いプロシージャよりも信頼性の高い実行を維持していることが示されたが、全てのモデルは、プロシージャ長が増加するにつれて信頼性の低下を示し、多段階ツールベースのワークフローにおける明確な実行限界を明らかにしている。
手続き実行における障害を体系的に解析するために,多段階の手続き実行における逸脱を分類する手続き特異的な誤り分類法を導入する。
関連論文リスト
- The Evolution of Tool Use in LLM Agents: From Single-Tool Call to Multi-Tool Orchestration [58.61149924275458]
ツールの使用により、大きな言語モデルが外部情報にアクセスし、ソフトウェアシステムを実行し、モデルパラメータだけで解決できるもの以外のデジタル環境で動作することができる。
エージェントシステムが進化するにつれて、中央の問題は、中途半端な状態、実行フィードバック、環境の変化、安全性、コスト、検証可能性といった実践的な制約によって、孤立呼び出しからマルチツールオーケストレーションへと移行した。
推論時の計画と実行、トレーニングと軌道構築、安全と制御、リソース制約下での効率性、オープン環境における能力の完全性、およびベンチマーク設計と評価の6つの分野に関する文献を整理する。
論文 参考訳(メタデータ) (2026-03-24T07:05:05Z) - Act While Thinking: Accelerating LLM Agents via Pattern-Aware Speculative Tool Execution [18.50317396128381]
PASTEは、推測によってツールの遅延を隠すように設計されたPattern-Aware Speculative Tool Executionメソッドである。
PASTEは平均タスク完了時間を48.5%削減し、ツールの実行スループットを1.8倍改善する。
論文 参考訳(メタデータ) (2026-03-19T13:36:50Z) - Anticipatory Planning for Multimodal AI Agents [77.62643381558613]
予測推論を明示的に訓練する2段階強化学習フレームワークであるTraceR1を紹介する。
TraceR1は、オンラインコンピュータ使用、オフラインコンピュータ使用ベンチマーク、マルチモーダルツール使用推論タスクを含む、7つのベンチマークで評価されている。
以上の結果から,予測軌道推論は,複雑な実環境において効果的に推論,計画,行動が可能なマルチモーダルエージェント構築の鍵となる原理であることが示唆された。
論文 参考訳(メタデータ) (2026-03-17T16:55:11Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Optimizing Agentic Workflows using Meta-tools [3.3298825663516403]
Agentic AIは、LLMが複雑なタスクを解決するためのツールを動的に推論し、計画し、相互作用することを可能にする。
この作業では、冗長なツール実行パターンを特定し、最適化するフレームワークであるAWO(Agent Optimization)を導入している。
AWO は LLM の呼び出し回数を 11.9% まで削減し、タスク成功率を 4.2% まで引き上げている。
論文 参考訳(メタデータ) (2026-01-29T17:43:08Z) - ComAgent: Multi-LLM based Agentic AI Empowered Intelligent Wireless Networks [62.031889234230725]
6Gネットワークは複雑な層間最適化に依存している。
数学の定式化に高レベルの意図を手動で翻訳することは、まだボトルネックである。
我々はマルチLLMエージェントAIフレームワークであるComAgentを紹介する。
論文 参考訳(メタデータ) (2026-01-27T13:43:59Z) - Beyond Task Completion: An Assessment Framework for Evaluating Agentic AI Systems [0.0]
エージェントAIの最近の進歩は、スタンドアロンの大規模言語モデルから統合システムへと焦点を移している。
LLM、メモリ、ツール、環境を含む4つの評価柱を持つエンドツーエンドのエージェントアセスメントフレームワークを提案する。
我々はこのフレームワークを、従来のメトリクスによる振る舞いの偏りを示す、代表的なAutonomous CloudOpsユースケースで検証する。
論文 参考訳(メタデータ) (2025-12-14T18:17:40Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - PADME: Procedure Aware DynaMic Execution [7.8148770419284865]
本稿では,プロシージャをグラフベースで表現するエージェントフレームワークであるPADME(Process Aware DynaMic Execution)を紹介する。
手動グラフ構築や非構造化推論に依存する以前の作業とは異なり、PADMEは手続き的テキストを自動で実行可能なグラフに変換する。
PADMEは、ALFWorldとScienceWorldを含む4つの異なるベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-13T11:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。