論文の概要: Why Do Multi-Agent LLM Systems Fail?
- arxiv url: http://arxiv.org/abs/2503.13657v1
- Date: Mon, 17 Mar 2025 19:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:34.914760
- Title: Why Do Multi-Agent LLM Systems Fail?
- Title(参考訳): マルチエージェントLLMシステムはなぜ機能しないのか?
- Authors: Mert Cemri, Melissa Z. Pan, Shuyi Yang, Lakshya A. Agrawal, Bhavya Chopra, Rishabh Tiwari, Kurt Keutzer, Aditya Parameswaran, Dan Klein, Kannan Ramchandran, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica,
- Abstract要約: 我々は、150以上のタスクにまたがる5つの人気のあるマルチエージェントシステム(MAS)フレームワークを分析し、6つの専門家のアノテータを含む。
そこで本研究では,14種類の障害モードを特定し,様々なMASフレームワークに適用可能な包括的分類法を提案する。
これらのきめ細かい障害モードは、(i)仕様とシステム設計の失敗、(ii)エージェント間のミスアライメント、(iii)タスク検証と終了の3つのカテゴリに分けられます。
- 参考スコア(独自算出の注目度): 91.39266556855513
- License:
- Abstract: Despite growing enthusiasm for Multi-Agent Systems (MAS), where multiple LLM agents collaborate to accomplish tasks, their performance gains across popular benchmarks remain minimal compared to single-agent frameworks. This gap highlights the need to analyze the challenges hindering MAS effectiveness. In this paper, we present the first comprehensive study of MAS challenges. We analyze five popular MAS frameworks across over 150 tasks, involving six expert human annotators. We identify 14 unique failure modes and propose a comprehensive taxonomy applicable to various MAS frameworks. This taxonomy emerges iteratively from agreements among three expert annotators per study, achieving a Cohen's Kappa score of 0.88. These fine-grained failure modes are organized into 3 categories, (i) specification and system design failures, (ii) inter-agent misalignment, and (iii) task verification and termination. To support scalable evaluation, we integrate MASFT with LLM-as-a-Judge. We also explore if identified failures could be easily prevented by proposing two interventions: improved specification of agent roles and enhanced orchestration strategies. Our findings reveal that identified failures require more complex solutions, highlighting a clear roadmap for future research. We open-source our dataset and LLM annotator.
- Abstract(参考訳): 複数のLLMエージェントが協調してタスクを遂行するマルチエージェントシステム(MAS)への熱意が高まっているにもかかわらず、人気のあるベンチマークにおけるパフォーマンス向上はシングルエージェントフレームワークと比較して最小限に留まっている。
このギャップは、MASの有効性を妨げる課題を分析する必要性を強調している。
本稿では,MAS課題の総合的研究について紹介する。
我々は、150以上のタスクにまたがる5つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。
そこで本研究では,14種類の障害モードを特定し,様々なMASフレームワークに適用可能な包括的分類法を提案する。
この分類法は、研究毎に3つの専門家アノテータ間の合意から反復的に現れ、コーエンのカッパスコア0.88を達成している。
これらのきめ細かい障害モードは3つのカテゴリに分けられる。
(i)仕様及びシステム設計の失敗
(二)他者間の不一致、及び
三 タスク検証及び終了
スケーラブルな評価を支援するため,MASFT と LLM-as-a-Judge を統合した。
また、エージェントロールの仕様の改善とオーケストレーション戦略の強化という2つの介入を提案することで、特定された障害を簡単に防止できるかどうかについても検討する。
我々の発見によると、特定された障害にはより複雑な解決策が必要であり、将来の研究の明確なロードマップが浮かび上がっている。
データセットとLLMアノテーションをオープンソースにしています。
関連論文リスト
- D-CIPHER: Dynamic Collaborative Intelligent Agents with Planning and Heterogeneous Execution for Enhanced Reasoning in Offensive Security [22.86304661035188]
大規模言語モデル(LLM)は、サイバーセキュリティにおいて様々な方法で使用されている。
CTF(Capture the Flag)の課題は、LLMエージェントの自動タスク計画能力を評価するためのベンチマークとして機能する。
協調型CTF問題解決のためのD-CIPHERマルチエージェントLLMフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-15T23:43:18Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges [5.934258790280767]
MLLM(Multimodal Large Language Models)は、テキスト、画像、音声にまたがる包括的な知識を活用して、複雑な問題に対処する。
本研究では、旅行セールスマン問題(TSP)と旅行セールスマン問題(mTSP)を視覚的に解決するMLLMの能力について検討する。
本稿では,MLLMフレームワークに複数の特殊エージェントを取り入れた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T07:12:06Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Understanding the Weakness of Large Language Model Agents within a
Complex Android Environment [21.278266207772756]
大規模言語モデル(LLM)は、ブラウザやゲームのようなドメイン固有のソフトウェア内で複雑なタスクを実行するインテリジェントエージェントに権限を与えている。
LLMはオペレーティングシステムのような汎用ソフトウェアシステムに適用する際の3つの主要な課題に直面している。
これらの課題は、現代的なオペレーティングシステム上でLLMエージェントを評価するために設計された環境とベンチマークであるAndroidArenaを動機付けている。
論文 参考訳(メタデータ) (2024-02-09T18:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。