論文の概要: When Agents Fail to Act: A Diagnostic Framework for Tool Invocation Reliability in Multi-Agent LLM Systems
- arxiv url: http://arxiv.org/abs/2601.16280v1
- Date: Thu, 22 Jan 2026 19:24:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.38486
- Title: When Agents Fail to Act: A Diagnostic Framework for Tool Invocation Reliability in Multi-Agent LLM Systems
- Title(参考訳): エージェントが行動しない場合:多エージェントLLMシステムにおけるツール起動信頼性診断フレームワーク
- Authors: Donghao Huang, Gauri Malwe, Zhaoxia Wang,
- Abstract要約: 大規模言語モデル(LLM)を利用したマルチエージェントシステムは、エンタープライズオートメーションを変革している。
我々は,インテリジェントエージェントシステムにおける手続き的信頼性を評価するために,ビッグデータ分析を活用する包括的診断フレームワークを導入する。
この研究は、ツール強化AIシステムの体系的信頼性評価のための基盤基盤を確立する。
- 参考スコア(独自算出の注目度): 1.8717456484053328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent systems powered by large language models (LLMs) are transforming enterprise automation, yet systematic evaluation methodologies for assessing tool-use reliability remain underdeveloped. We introduce a comprehensive diagnostic framework that leverages big data analytics to evaluate procedural reliability in intelligent agent systems, addressing critical needs for SME-centric deployment in privacy-sensitive environments. Our approach features a 12-category error taxonomy capturing failure modes across tool initialization, parameter handling, execution, and result interpretation. Through systematic evaluation of 1,980 deterministic test instances spanning both open-weight models (Qwen2.5 series, Functionary) and proprietary alternatives (GPT-4, Claude 3.5/3.7) across diverse edge hardware configurations, we identify actionable reliability thresholds for production deployment. Our analysis reveals that procedural reliability, particularly tool initialization failures, constitutes the primary bottleneck for smaller models, while qwen2.5:32b achieves flawless performance matching GPT-4.1. The framework demonstrates that mid-sized models (qwen2.5:14b) offer practical accuracy-efficiency trade-offs on commodity hardware (96.6\% success rate, 7.3 s latency), enabling cost-effective intelligent agent deployment for resource-constrained organizations. This work establishes foundational infrastructure for systematic reliability evaluation of tool-augmented multi-agent AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したマルチエージェントシステムは,企業自動化を変革しているが,ツール使用信頼性評価のための体系的評価手法は未開発のままである。
我々は、ビッグデータ分析を利用してインテリジェントエージェントシステムにおける手続き的信頼性を評価する包括的な診断フレームワークを導入し、プライバシに敏感な環境における中小企業中心のデプロイメントにおける重要なニーズに対処する。
提案手法では,ツールの初期化,パラメータハンドリング,実行,結果解釈にまたがる障害モードを12カテゴリに分類する。
オープンウェイトモデル(Qwen2.5シリーズ、Functionary)と、さまざまなエッジハードウェア構成にまたがるプロプライエタリな代替品(GPT-4、Claude 3.5/3.7)の両方にまたがる1,980の決定論的テストインスタンスを体系的に評価することにより、本番配備において実行可能な信頼性閾値を特定した。
解析の結果,プロシージャの信頼性,特にツールの初期化失敗が小型モデルの主要なボトルネックとなっているのに対し,qwen2.5:32bはGPT-4.1に適合する不完全な性能を実現していることがわかった。
このフレームワークは、中規模のモデル(qwen2.5:14b)が、コモディティハードウェア(96.6\%の成功率、7.3sレイテンシ)で実用的な精度と効率のトレードオフを提供し、リソースに制約のある組織に対するコスト効率の良いインテリジェントエージェント配置を可能にすることを実証している。
この研究は、ツール強化マルチエージェントAIシステムの体系的信頼性評価のための基盤基盤を確立する。
関連論文リスト
- Agentic Confidence Calibration [67.50096917021521]
Holistic Trajectory (HTC)はAIエージェントの新しい診断フレームワークである。
HTCはキャリブレーションと差別の両方において、強力なベースラインを一貫して超えている。
HTCは、障害の背後にあるシグナルを明らかにすることによって、解釈可能性を提供する。
論文 参考訳(メタデータ) (2026-01-22T09:08:25Z) - AI-NativeBench: An Open-Source White-Box Agentic Benchmark Suite for AI-Native Systems [52.65695508605237]
我々は、Model Context Protocol(MCP)とAgent-to-Agent(A2A)標準に基づいて、アプリケーション中心でホワイトボックスのAI-NativeベンチマークスイートであるAI-NativeBenchを紹介する。
エージェントスパンを分散トレース内の第一級市民として扱うことにより,本手法は,単純な機能以上の工学的特性の粒度解析を可能にする。
この研究は、モデル能力の測定から信頼性の高いAI-Nativeシステムへの移行を導く最初の体系的な証拠を提供する。
論文 参考訳(メタデータ) (2026-01-14T11:32:07Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - How Do LLMs Fail In Agentic Scenarios? A Qualitative Analysis of Success and Failure Scenarios of Various LLMs in Agentic Simulations [0.0]
ツール使用機能を備えた自律型エージェントとして運用する場合,大規模言語モデル(LLM)がいかに失敗するかを検討する。
上座エージェントメリット指数(KAMI)v0.1ベンチマークを用いて、3つの代表モデルから900の実行トレースを解析した。
4つの繰り返し発生する障害アーチタイプを識別する:接地なしでの未熟なアクション、欠落したエンティティを置換する過剰なヘルパフルネス、イントラクタによるコンテキスト汚染に対する脆弱性、脆弱な実行。
論文 参考訳(メタデータ) (2025-12-08T12:27:15Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - Routine: A Structural Planning Framework for LLM Agent System in Enterprise [10.989149053905587]
エンタープライズ環境におけるエージェントシステムの展開は、しばしばいくつかの課題によって妨げられる。
一般的なモデルは、ドメイン固有のプロセス知識が欠如し、非組織的な計画、主要なツールの欠如、実行の安定性が低下します。
本稿では、明確な構造、明示的な命令、シームレスなパラメータパッシングを備えたマルチステップエージェント計画フレームワークであるRuleineを紹介する。
論文 参考訳(メタデータ) (2025-07-19T02:46:19Z) - A Holistic Assessment of the Reliability of Machine Learning Systems [30.638615396429536]
本稿では,機械学習(ML)システムの信頼性に関する総合評価手法を提案する。
本フレームワークは, 分散精度, 分散シフト堅牢性, 対向ロバスト性, キャリブレーション, 分布外検出の5つの重要な特性を評価する。
異なるアルゴリズムアプローチの性能に関する洞察を提供するため、我々は最先端技術を特定し分類する。
論文 参考訳(メタデータ) (2023-07-20T05:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。