Fugu-MT 論文翻訳(概要): Why Do Multi-Agent LLM Systems Fail?

論文の概要: Why Do Multi-Agent LLM Systems Fail?

arxiv url: http://arxiv.org/abs/2503.13657v1
Date: Mon, 17 Mar 2025 19:04:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:11.952248
Title: Why Do Multi-Agent LLM Systems Fail?
Title（参考訳）: マルチエージェントLLMシステムはなぜ機能しないのか?
Authors: Mert Cemri, Melissa Z. Pan, Shuyi Yang, Lakshya A. Agrawal, Bhavya Chopra, Rishabh Tiwari, Kurt Keutzer, Aditya Parameswaran, Dan Klein, Kannan Ramchandran, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica,
Abstract要約: 我々は、150以上のタスクにまたがる5つの人気のあるマルチエージェントシステム(MAS)フレームワークを分析し、6つの専門家のアノテータを含む。そこで本研究では,14種類の障害モードを特定し,様々なMASフレームワークに適用可能な包括的分類法を提案する。これらのきめ細かい障害モードは、(i)仕様とシステム設計の失敗、(ii)エージェント間のミスアライメント、(iii)タスク検証と終了の3つのカテゴリに分けられます。
参考スコア（独自算出の注目度）: 91.39266556855513
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite growing enthusiasm for Multi-Agent Systems (MAS), where multiple LLM agents collaborate to accomplish tasks, their performance gains across popular benchmarks remain minimal compared to single-agent frameworks. This gap highlights the need to analyze the challenges hindering MAS effectiveness. In this paper, we present the first comprehensive study of MAS challenges. We analyze five popular MAS frameworks across over 150 tasks, involving six expert human annotators. We identify 14 unique failure modes and propose a comprehensive taxonomy applicable to various MAS frameworks. This taxonomy emerges iteratively from agreements among three expert annotators per study, achieving a Cohen's Kappa score of 0.88. These fine-grained failure modes are organized into 3 categories, (i) specification and system design failures, (ii) inter-agent misalignment, and (iii) task verification and termination. To support scalable evaluation, we integrate MASFT with LLM-as-a-Judge. We also explore if identified failures could be easily prevented by proposing two interventions: improved specification of agent roles and enhanced orchestration strategies. Our findings reveal that identified failures require more complex solutions, highlighting a clear roadmap for future research. We open-source our dataset and LLM annotator.
Abstract（参考訳）: 複数のLLMエージェントが協調してタスクを遂行するマルチエージェントシステム(MAS)への熱意が高まっているにもかかわらず、人気のあるベンチマークにおけるパフォーマンス向上はシングルエージェントフレームワークと比較して最小限に留まっている。このギャップは、MASの有効性を妨げる課題を分析する必要性を強調している。本稿では,MAS課題の総合的研究について紹介する。我々は、150以上のタスクにまたがる5つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。そこで本研究では,14種類の障害モードを特定し,様々なMASフレームワークに適用可能な包括的分類法を提案する。この分類法は、研究毎に3つの専門家アノテータ間の合意から反復的に現れ、コーエンのカッパスコア0.88を達成している。これらのきめ細かい障害モードは3つのカテゴリに分けられる。 (i)仕様及びシステム設計の失敗 (二)他者間の不一致、及び三タスク検証及び終了スケーラブルな評価を支援するため,MASFT と LLM-as-a-Judge を統合した。また、エージェントロールの仕様の改善とオーケストレーション戦略の強化という2つの介入を提案することで、特定された障害を簡単に防止できるかどうかについても検討する。我々の発見によると、特定された障害にはより複雑な解決策が必要であり、将来の研究の明確なロードマップが浮かび上がっている。データセットとLLMアノテーションをオープンソースにしています。

関連論文リスト

Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文参考訳（メタデータ） (2025-04-30T23:09:44Z)
Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。 GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文参考訳（メタデータ） (2025-03-17T04:07:47Z)
OR-LLM-Agent: Automating Modeling and Solving of Operations Research Optimization Problems with Reasoning LLM [15.260794368585692]
自動オペレーションリサーチ問題解決のためのLLMを推論するAIエージェントフレームワークであるOR-LLM-Agentを提案する。 GPT-o3, Gemini 2.5 Pro, DeepSeek-R1, ORLMなどの高度な手法よりも, OR-LLM-Agentの精度を7%以上向上させることを示す。
論文参考訳（メタデータ） (2025-03-13T03:40:50Z)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Investigating the Adaptive Robustness with Knowledge Conflicts in LLM-based Multi-Agent Systems [39.390472904456836]
マルチエージェントシステム(MAS)のロバスト性を調べるための総合的な4つのメトリクスを設計する。まず、異種エージェントが導入した穏やかな知識紛争を分析し、システムの堅牢性を損なうことなく、協調的な意思決定を改善することを発見した。最後に、知識衝突数、エージェント数、相互作用ラウンドに関するアブレーション研究を行い、MASの自己修復能力に固有の限界があることを見出した。
論文参考訳（メタデータ） (2025-02-21T02:24:43Z)
D-CIPHER: Dynamic Collaborative Intelligent Agents with Planning and Heterogeneous Execution for Enhanced Reasoning in Offensive Security [22.86304661035188]
大規模言語モデル(LLM)は、サイバーセキュリティにおいて様々な方法で使用されている。 CTF(Capture the Flag)の課題は、LLMエージェントの自動タスク計画能力を評価するためのベンチマークとして機能する。協調型CTF問題解決のためのD-CIPHERマルチエージェントLLMフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-15T23:43:18Z)
MASTER: A Multi-Agent System with LLM Specialized MCTS [11.780059513577848]
大規模言語モデル(LLM)は、問題解決のためにますます研究されている。 MCTSは、真の報酬分布を近似するために、広範囲なサンプリングシミュレーションに依存している。 LLM専門MCTSによるエージェント採用とコミュニケーションを協調する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-24T08:01:11Z)
MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。 MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文参考訳（メタデータ） (2024-12-02T19:30:36Z)
Enhancing Multi-Agent Consensus through Third-Party LLM Integration: Analyzing Uncertainty and Mitigating Hallucinations in Large Language Models [1.4582633500696451]
大きな言語モデル(LLM)は、複雑な推論タスクを扱う際にも問題に直面します。本稿では,知識境界を拡張するために異なるLSMを統合する新しい手法を提案する。算術的データセットの実験により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-11-25T08:42:33Z)
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。 ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。 2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。 GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文参考訳（メタデータ） (2024-10-06T14:59:09Z)
Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文参考訳（メタデータ） (2024-09-19T02:20:06Z)
SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文参考訳（メタデータ） (2024-09-11T17:37:48Z)
Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges [5.934258790280767]
MLLM(Multimodal Large Language Models)は、テキスト、画像、音声にまたがる包括的な知識を活用して、複雑な問題に対処する。本研究では、旅行セールスマン問題(TSP)と旅行セールスマン問題(mTSP)を視覚的に解決するMLLMの能力について検討する。本稿では,MLLMフレームワークに複数の特殊エージェントを取り入れた新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-06-26T07:12:06Z)
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文参考訳（メタデータ） (2024-06-24T15:16:45Z)
Smurfs: Leveraging Multiple Proficiency Agents with Context-Efficiency for Tool Planning [14.635361844362794]
Smurfs'は、大規模言語モデルの応用に革命をもたらすために設計された最先端のマルチエージェントフレームワークである。 Smurfは、余分なコストなしで複雑なタスクを解くモデルの能力を高めることができる。
論文参考訳（メタデータ） (2024-05-09T17:49:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。