論文の概要: AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios
- arxiv url: http://arxiv.org/abs/2605.27995v2
- Date: Thu, 28 May 2026 05:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.841446
- Title: AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios
- Title(参考訳): AsyncTool: マルチタスクシナリオ下での非同期関数呼び出し機能の評価
- Authors: Kou Shi, Ziao Zhang, Shiting Huang, Avery Nie, Zhen Fang, Qiuchen Wang, Lin Chen, Huaian Chen, Zehui Chen, Feng Zhao,
- Abstract要約: 大言語モデル(LLM)ベースのエージェントは、複雑なタスクを解決するために外部ツールを使用することで、強力な能力を示している。
現実世界のアプリケーションでは、複数のタスクを同時に実行する必要があり、全体的な効率性は、ツールのレスポンスを待っている間にエージェントがアイドルタイムを使えるかどうかに依存する。
我々は,対話型マルチタスクツール使用環境におけるLLMベースのエージェントを遅延ツールフィードバックで評価するためのベンチマークであるAsyncToolを提案する。
- 参考スコア(独自算出の注目度): 33.202154532105396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM)-based agents have shown strong capabilities in using external tools to solve complex tasks. However, existing evaluations often overlook the temporal dimension of tool use, especially the impact of tool response latency, and are usually limited to single-task settings. In real-world applications, multiple tasks often need to be executed concurrently, and overall efficiency depends on whether an agent can use idle time while waiting for tool responses. We refer to this capability as asynchronous tool calling. To evaluate it, we propose AsyncTool, a benchmark for assessing LLM-based agents in interactive multi-task tool-use environments with delayed tool feedback. AsyncTool presents multiple heterogeneous tasks simultaneously and simulates realistic tool response latency during execution. Using a hybrid data evolution strategy, we construct a diverse asynchronous multitasking dataset that covers multiple scenarios and tool-use patterns. We evaluate models at the step, sub-task, and task levels, and introduce efficiency-oriented metrics to measure task coordination and completion efficiency. Extensive experiments show that delayed tool feedback poses substantial challenges to current agents and leads to clear performance degradation. Models that better coordinate task switching, dependency tracking, and state maintenance achieve stronger performance on AsyncTool. Our analysis identifies key failure modes of current tool-using agents and provides practical insights for designing future systems with stronger temporal reasoning and coordination capabilities.
- Abstract(参考訳): 大言語モデル(LLM)ベースのエージェントは、複雑なタスクを解決するために外部ツールを使用することで、強力な能力を示している。
しかしながら、既存の評価は、ツール使用の時間的次元、特にツールレスポンスのレイテンシの影響を見落とし、通常はシングルタスクの設定に制限される。
現実世界のアプリケーションでは、複数のタスクを同時に実行する必要があり、全体的な効率性は、ツールのレスポンスを待っている間にエージェントがアイドルタイムを使えるかどうかに依存する。
私たちはこの機能を非同期ツール呼び出しと呼んでいます。
そこで本稿では,対話型マルチタスクツール利用環境におけるLCMベースのエージェント評価のためのベンチマークであるAsyncToolを提案する。
AsyncToolは複数の異種タスクを同時に提示し、実行中に現実的なツール応答遅延をシミュレートする。
ハイブリッドデータ進化戦略を用いて、複数のシナリオとツール使用パターンをカバーする多様な非同期マルチタスクデータセットを構築する。
ステップ,サブタスク,タスクレベルのモデルを評価し,タスク調整と完了効率を測定するための効率指向メトリクスを導入する。
大規模な実験では、遅れたツールフィードバックが現在のエージェントに重大な課題をもたらし、パフォーマンスの劣化が明らかになる。
タスクの切り替え、依存性のトラッキング、状態メンテナンスのコーディネートを改善するモデルは、AsyncTool上でより強力なパフォーマンスを実現する。
本分析では,現在のツール利用エージェントの重要な障害モードを特定し,より強力な時間的推論と協調機能を備えた将来のシステムを設計するための実践的な洞察を提供する。
関連論文リスト
- AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning [55.221850286246]
我々は、インターリーブド思考とマルチモーダル・チェーン・オブ・シークレット(CoT)推論を備えたツール統合推論エージェントであるMindWatcherを紹介する。
MindWatcherは、さまざまなツールの呼び出しと使用の調整を自律的に行うことができる。
車、動物、植物を含む8つのカテゴリをカバーする、大規模で高品質な局所画像検索データベースは、堅牢な物体認識モデルを提供する。
論文 参考訳(メタデータ) (2025-12-29T12:16:12Z) - Dynamic Tool Dependency Retrieval for Efficient Function Calling [38.77768293858919]
動的ツール依存検索 (DTDR) は,初期クエリと実行コンテキストの進化を条件とした軽量な検索手法である。
DTDRを複数のデータセットと大規模言語モデルのバックボーンにまたがる最先端の検索手法と比較した。
以上の結果から,動的ツール検索は,最先端の静的検索よりも23%~104%の関数呼び出し成功率を向上することがわかった。
論文 参考訳(メタデータ) (2025-12-18T20:40:25Z) - GAP: Graph-Based Agent Planning with Parallel Tool Use and Reinforcement Learning [20.75113227786218]
グラフベースのエージェント計画(GAP)は、グラフベースの計画を通じてタスク間の依存関係を明示的にモデル化する新しいフレームワークである。
我々のアプローチは、複雑なタスクを依存性を意識したサブタスクグラフに分解する基礎モデルを訓練する。
この依存性を意識したオーケストレーションは、実行効率とタスクの正確性の両方で大幅に改善される。
論文 参考訳(メタデータ) (2025-10-29T09:35:55Z) - DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。
長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。
LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文 参考訳(メタデータ) (2025-10-24T16:24:01Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Robotouille: An Asynchronous Planning Benchmark for LLM Agents [7.574421886354134]
非同期計画は、時間遅延、多種多様な長期タスクの理由付け、他のエージェントとの協力を必要とするエージェントにとって不可欠である。
我々は、長時間の非同期シナリオを処理するエージェントの能力をテストするために設計されたベンチマーク環境であるRobotouilleを紹介する。
結果から,ReAct(gpt4-o)は同期タスクでは47%,非同期タスクでは11%に過ぎなかった。
論文 参考訳(メタデータ) (2025-02-06T05:50:37Z) - ART: Automatic multi-step reasoning and tool-use for large language
models [105.57550426609396]
大規模言語モデル(LLM)は、数秒とゼロショットの設定で複雑な推論を行うことができる。
各推論ステップは、コアLLM機能を超えて計算をサポートする外部ツールに依存することができる。
プログラムとして中間推論ステップを自動生成するために凍結LDMを使用するフレームワークであるART(Automatic Reasoning and Tool-use)を導入する。
論文 参考訳(メタデータ) (2023-03-16T01:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。