Fugu-MT 論文翻訳(概要): Understanding Multi-Agent LLM Frameworks: A Unified Benchmark and Experimental Analysis

論文の概要: Understanding Multi-Agent LLM Frameworks: A Unified Benchmark and Experimental Analysis

arxiv url: http://arxiv.org/abs/2602.03128v1
Date: Tue, 03 Feb 2026 05:37:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-04 18:37:15.26445
Title: Understanding Multi-Agent LLM Frameworks: A Unified Benchmark and Experimental Analysis
Title（参考訳）: マルチエージェントLLMフレームワークの理解:統一ベンチマークと実験分析
Authors: Abdelghny Orogat, Ana Rostam, Essam Mansour,
Abstract要約: 本稿では,マルチエージェント LLM フレームワークを基本次元に沿って体系的に比較するためのアーキテクチャ分類法を提案する。我々は,既存のベンチマークを標準化された実行パイプラインの下で統合する統合評価スイートを開発した。以上の結果から,フレームワークレベルの設計選択だけでレイテンシが100倍以上向上し,計画精度が最大30%向上し,調整成功率が90%以上から30%以下に低下する可能性が示唆された。
参考スコア（独自算出の注目度）: 2.903627214446312
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-agent LLM frameworks are widely used to accelerate the development of agent systems powered by large language models (LLMs). These frameworks impose distinct architectural structures that govern how agents interact, store information, and coordinate tasks. However, their impact on system performance remains poorly understood. This gap is critical, as architectural choices alone can induce order-of-magnitude differences in latency and throughput, as well as substantial variation in accuracy and scalability. Addressing this challenge requires (i) jointly evaluating multiple capabilities, such as orchestration overhead, memory behavior, planning, specialization, and coordination, and (ii) conducting these evaluations under controlled, framework-level conditions to isolate architectural effects. Existing benchmarks focus on individual capabilities and lack standardized framework-level evaluation. We address these limitations by (i) introducing an architectural taxonomy for systematically comparing multi-agent LLM frameworks along fundamental dimensions, and (ii) developing MAFBench, a unified evaluation suite that integrates existing benchmarks under a standardized execution pipeline. Using MAFBench, we conduct a controlled empirical study across several widely used frameworks. Our results show that framework-level design choices alone can increase latency by over 100x, reduce planning accuracy by up to 30%, and lower coordination success from above 90% to below 30%. Finally, we translate our findings into concrete architectural design principles and framework selection guidance, and outline promising future research directions.
Abstract（参考訳）: マルチエージェント LLM フレームワークは,大規模言語モデル (LLM) を利用したエージェントシステムの開発を加速するために広く利用されている。これらのフレームワークは、エージェントのインタラクション、情報保存、タスクのコーディネートを管理する、異なるアーキテクチャ構造を規定する。しかし、システムパフォーマンスへの影響はよく分かっていない。このギャップは、アーキテクチャの選択だけでレイテンシとスループットのオーダー・オブ・マグニチュードの違いを誘発し、精度とスケーラビリティのかなりの変化を引き起こすため、非常に重要である。この課題に対処するには一オーケストレーションのオーバーヘッド、メモリの挙動、計画、特殊化、調整等の複数の機能を共同で評価すること。二建築効果を分離するために、これらの評価を統制された枠組みレベルの条件下で行うこと。既存のベンチマークでは個々の機能に重点を置いており、標準化されたフレームワークレベルの評価が欠けている。これらの制限に対処する一基本的側面に沿って多エージェントLLMフレームワークを体系的に比較するためのアーキテクチャ分類を導入すること。既存のベンチマークを標準化された実行パイプラインで統合する統合評価スイートであるMAFBenchの開発。我々は,MAFBenchを用いて,広く使用されているフレームワークを比較検討した。以上の結果から,フレームワークレベルの設計選択だけでレイテンシが100倍以上向上し,計画精度が最大30%向上し,調整成功率が90%以上から30%以下に低下する可能性が示唆された。最後に,本研究結果を具体的な設計原則とフレームワーク選択指針に翻訳し,将来的な研究の方向性を概説する。

関連論文リスト

Designing Domain-Specific Agents via Hierarchical Task Abstraction Mechanism [61.01709143437043]
階層型タスク抽象化機構(HTAM)を中心とした新しいエージェント設計フレームワークを提案する。具体的には、HTAMは、社会的役割のエミュレーションを超えて、代わりに、複数のエージェントシステムを、あるドメインの固有のタスク依存グラフを反映する論理階層に構造化する。我々は、複雑な地理空間解析に適したマルチエージェントシステムであるEarthAgentとして、このフレームワークをインスタンス化する。
論文参考訳（メタデータ） (2025-11-21T12:25:47Z)
Benchmarking and Studying the LLM-based Agent System in End-to-End Software Development [33.01897134024342]
エンドツーエンドソフトウェア開発のためのLLMベースの自律エージェントの開発は、ソフトウェア工学における重要なパラダイムシフトである。この作業はコミュニティに、より現実的なベンチマーク、包括的な評価フレームワーク、そしてソフトウェア開発エージェントの現在の能力とコア課題に対する重要な洞察を提供する。
論文参考訳（メタデータ） (2025-11-06T05:10:04Z)
Designing Empirical Studies on LLM-Based Code Generation: Towards a Reference Framework [0.3568466510804538]
大規模言語モデル(LLM)に基づくコード生成に関する経験的研究を設計・報告するための理論的枠組みを提案する。このフレームワークは、そのような実験を行ったこれまでの経験と、最近の研究における重要な類似点と相違点の比較分析の両方に基礎を置いている。問題ソース、品質属性、メトリクスなどのコアコンポーネントに関する評価を組織化し、構造化および体系的な実験をサポートする。
論文参考訳（メタデータ） (2025-10-04T16:15:54Z)
From Parameters to Performance: A Data-Driven Study on LLM Structure and Development [73.67759647072519]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。モデルスケールと能力の急激な成長にもかかわらず、構造構成がパフォーマンスに与える影響に関する体系的なデータ駆動の研究は依然として少ない。多様なオープンソースLLM構造を含む大規模データセットと,その性能を複数のベンチマークで比較した。
論文参考訳（メタデータ） (2025-09-14T12:20:39Z)
RefactorCoderQA: Benchmarking LLMs for Multi-Domain Coding Question Solutions in Cloud and Edge Deployment [20.416910591388618]
本稿では,Large Language Models (LLM) の性能を評価するためのベンチマークであるRefactorCoderQAを紹介する。我々の微調整モデルであるRefactorCoder-MoEは最先端のパフォーマンスを実現し、オープンソースと商用のベースラインを76.84%で上回りました。
論文参考訳（メタデータ） (2025-09-12T17:44:22Z)
Aligning MLLM Benchmark With Human Preferences via Structural Equation Modeling [17.092510377905814]
マルチモーダルな大規模言語モデル (MLLM) の評価は、構造化され、解釈可能で、理論的に基礎付けられたベンチマーク設計の欠如により、依然として根本的な課題である。本研究では、内部の妥当性、次元分離性、およびベンチマークコンポーネントの寄与を分析するために、構造方程式モデリング(SEM)に基づくMLLMベンチマークの整合性を示す新しいフレームワークを提案する。実験結果から,提案ベンチマークは,従来の手法に比べて高い解釈可能性,指標冗長性の低減,認知的整合性の明確化を示すことが示された。
論文参考訳（メタデータ） (2025-06-13T08:04:56Z)
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文参考訳（メタデータ） (2025-03-03T05:18:50Z)
REALM-Bench: A Benchmark for Evaluating Multi-Agent Systems on Real-world, Dynamic Planning and Scheduling Tasks [2.1331883629523634]
このスイートは、基本的なものから非常に複雑なものへと進化する14の計画とスケジューリングの問題を含んでいる。それぞれの問題は、並列計画スレッドの数、依存性間の複雑さ、予期せぬディスラプションの頻度の3つの次元に沿ってスケールすることができる。このベンチマークは一般公開を目標とし、現実のアプリケーションのためのより適応性があり、堅牢でスケーラブルなAI計画システムの開発を進めることを目指している。
論文参考訳（メタデータ） (2025-02-26T05:24:22Z)
Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文参考訳（メタデータ） (2024-02-18T03:40:06Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文参考訳（メタデータ） (2022-11-29T17:10:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。