論文の概要: Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets
- arxiv url: http://arxiv.org/abs/2604.02460v1
- Date: Thu, 02 Apr 2026 18:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.176564
- Title: Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets
- Title(参考訳): 同一思考予算下におけるマルチホップ推論における単一エージェントLLMのマルチエージェントシステム性能
- Authors: Dat Tran, Douwe Kiela,
- Abstract要約: データ処理の不等式に基づく情報理論の議論を示す。
トークンを一定に保った場合,SASはマルチホップ推論タスクにおいてMASと一貫して一致し,より優れることがわかった。
以上の結果から,マルチホップ推論タスクにおいて,マルチエージェントシステムのアドバンテージを未計算の計算や文脈効果によってよりよく説明できることが示唆された。
- 参考スコア(独自算出の注目度): 14.028807574426748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work reports strong performance from multi-agent LLM systems (MAS), but these gains are often confounded by increased test-time computation. When computation is normalized, single-agent systems (SAS) can match or outperform MAS, yet the theoretical basis and evaluation methodology behind this comparison remain unclear. We present an information-theoretic argument, grounded in the Data Processing Inequality, suggesting that under a fixed reasoning-token budget and with perfect context utilization, single-agent systems are more information-efficient. This perspective further predicts that multi-agent systems become competitive when a single agent's effective context utilization is degraded, or when more compute is expended. We test these predictions in a controlled empirical study across three model families (Qwen3, DeepSeek-R1-Distill-Llama, and Gemini 2.5), comparing SAS with multiple MAS architectures under matched budgets. We find that SAS consistently match or outperform MAS on multi-hop reasoning tasks when reasoning tokens are held constant. Beyond aggregate performance, we conduct a detailed diagnostic analysis of system behavior and evaluation methodology. We identify significant artifacts in API-based budget control (particularly in Gemini 2.5) and in standard benchmarks, both of which can inflate apparent gains from MAS. Overall, our results suggest that, for multi-hop reasoning tasks, many reported advantages of multi-agent systems are better explained by unaccounted computation and context effects rather than inherent architectural benefits, and highlight the importance of understanding and explicitly controlling the trade-offs between compute, context, and coordination in agentic systems.
- Abstract(参考訳): 近年,マルチエージェントLLMシステム(MAS)の性能向上が報告されている。
計算が正規化されると、単エージェントシステム(SAS)はMASにマッチするか、性能が良くなるが、この比較の背後にある理論的基礎と評価手法は不明確である。
データ処理の不等式に根ざした情報理論的論証を提示し、固定的推論に基づく予算と完全な文脈利用により、単一エージェントシステムはより情報効率が高いことを示唆する。
この観点は、単一のエージェントの効果的なコンテキスト利用が劣化したり、より多くの計算が拡張されたりすると、マルチエージェントシステムが競争力を持つようになることをさらに予測する。
我々はこれらの予測を、3つのモデルファミリー(Qwen3、DeepSeek-R1-Distill-Llama、Gemini 2.5)で比較した。
トークンを一定に保った場合,SASはマルチホップ推論タスクにおいてMASと一貫して一致し,より優れることがわかった。
集計性能の他に,システム動作の詳細な解析や評価手法も実施する。
私たちはAPIベースの予算管理(特にGemini 2.5)や標準ベンチマークで重要な成果物を特定します。
以上の結果から,マルチホップ推論タスクにおいて,エージェントシステムにおける計算,コンテキスト,調整のトレードオフを理解し,明示的に制御することの重要性が示唆された。
関連論文リスト
- A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs [64.8510381475827]
SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。
SMoEモデルは専門家間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。
推定中のエキスパートルーティングの体系的解析を行い, (i) 負荷不均衡が持続し, バッチサイズが大きくなる, (ii) 選択頻度が, 専門家の重要度を確実に反映しない, (iii) 専門家の全体負荷と重要性を, キャリブレーションセットを用いて推定できる,という3つの知見を同定する。
論文 参考訳(メタデータ) (2026-02-23T15:11:16Z) - AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent [57.10083973844841]
AgentArkは、マルチエージェントダイナミクスを単一のモデルの重みに蒸留する新しいフレームワークである。
各種モデル,タスク,スケーリング,シナリオの3つの階層的蒸留戦略について検討する。
シミュレーションからトレーニングへ計算の負担をシフトさせることで、蒸留されたモデルは、複数のエージェントの強い推論と自己補正性能を示しながら、一つのエージェントの効率を保ちます。
論文 参考訳(メタデータ) (2026-02-03T19:18:28Z) - A Comprehensive Evaluation of LLM Reasoning: From Single-Model to Multi-Agent Paradigms [20.241519889633285]
大規模言語モデル(LLM)は、推論パラダイムが重要な役割を果たす推論システムとして、ますます多くデプロイされている。
我々は、直接単モデル生成、CoT拡張単モデル推論、代表MASなど、推論パラダイムを包括的かつ統一的に評価する。
MIMeBenchは、2つの基本的な未探索セマンティック機能をターゲットにした新しいオープンエンドベンチマークである。
論文 参考訳(メタデータ) (2026-01-19T17:23:45Z) - Multimodal Reinforcement Learning with Agentic Verifier for AI Agents [131.46008226323423]
Argosは、エージェントタスクの推論モデルをトレーニングするための、原則化されたマルチモーダル報酬エージェントである。
エージェント検証をSFTデータとRLトレーニングの両方で活用することにより、我々のモデルは最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2025-12-03T04:42:47Z) - Benefits and Limitations of Communication in Multi-Agent Reasoning [11.788489289062312]
マルチエージェントシステムの表現性を解析するための理論的枠組みを提案する。
i) タスクを正確に解くために必要なエージェントの数, (ii) エージェント間通信の量と構造, (iii) 達成可能なスピードアップを問題サイズとコンテキストスケールとして導出する。
本研究は,コミュニケーションが有益である状況を特定し,エージェント数と帯域幅のトレードオフを明確化し,いずれのリソースにも制約がある場合の本質的な制約を明らかにする。
論文 参考訳(メタデータ) (2025-10-14T20:04:27Z) - Automatic Failure Attribution and Critical Step Prediction Method for Multi-Agent Systems Based on Causal Inference [8.823529310904162]
マルチエージェントシステム(MAS)は複雑なタスクの自動化に不可欠であるが、その実践的展開は障害帰属の課題によって妨げられている。
マルチグラニュラリティ因果推論に基づくMASのための最初の失敗帰属フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T15:22:00Z) - Uncertainty-Aware Collaborative System of Large and Small Models for Multimodal Sentiment Analysis [17.98292973608615]
マルチモーダル感情分析のための強力なMLLMと軽量なベースラインモデルを編成する新しい不確実性認識協調システム(U-ACS)を提案する。
提案手法は,スタンドアロンのMLLMに比べて計算資源のごく一部しか必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T16:01:58Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Single-agent or Multi-agent Systems? Why Not Both? [2.7635437118448554]
マルチエージェントシステム(MAS)は複雑なタスクを分解し、サブタスクを異なる言語モデル(LLM)エージェントやツールに委譲する。
我々は,MASと単一エージェントシステム(SAS)を比較した実証的研究を行った。
我々の設計では、さまざまなエージェントアプリケーションに対して、デプロイメントコストを最大20%削減しながら、精度を1.1-12%向上させる。
論文 参考訳(メタデータ) (2025-05-23T18:30:24Z) - Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。
我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。
MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。