論文の概要: On the Importance of Task Complexity in Evaluating LLM-Based Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2510.04311v1
- Date: Sun, 05 Oct 2025 18:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.577233
- Title: On the Importance of Task Complexity in Evaluating LLM-Based Multi-Agent Systems
- Title(参考訳): LLMに基づくマルチエージェントシステム評価におけるタスク複雑度の重要性について
- Authors: Bohan Tang, Huidong Liang, Keyue Jiang, Xiaowen Dong,
- Abstract要約: 大規模言語モデルマルチエージェントシステム(LLM-MAS)は、より高度なAI行動を達成するために集団知性を活用するための有望なパラダイムを提供する。
課題解決における LLM-MAS の有効性を評価するためには, シーケンシャル推論の程度や能力の幅など, タスク複雑性の原則的理解が不可欠である。
- 参考スコア(独自算出の注目度): 14.75237035960069
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language model multi-agent systems (LLM-MAS) offer a promising paradigm for harnessing collective intelligence to achieve more advanced forms of AI behaviour. While recent studies suggest that LLM-MAS can outperform LLM single-agent systems (LLM-SAS) on certain tasks, the lack of systematic experimental designs limits the strength and generality of these conclusions. We argue that a principled understanding of task complexity, such as the degree of sequential reasoning required and the breadth of capabilities involved, is essential for assessing the effectiveness of LLM-MAS in task solving. To this end, we propose a theoretical framework characterising tasks along two dimensions: depth, representing reasoning length, and width, representing capability diversity. We theoretically examine a representative class of LLM-MAS, namely the multi-agent debate system, and empirically evaluate its performance in both discriminative and generative tasks with varying depth and width. Theoretical and empirical results show that the benefit of LLM-MAS over LLM-SAS increases with both task depth and width, and the effect is more pronounced with respect to depth. This clarifies when LLM-MAS are beneficial and provides a principled foundation for designing future LLM-MAS methods and benchmarks.
- Abstract(参考訳): 大規模言語モデルマルチエージェントシステム(LLM-MAS)は、より高度なAI行動を達成するために集団知性を活用するための有望なパラダイムを提供する。
最近の研究では、LLM-MASは特定のタスクにおいてLLM単エージェントシステム(LLM-SAS)より優れていることが示唆されているが、体系的な実験設計の欠如は、これらの結論の強さと一般化を制限している。
課題解決における LLM-MAS の有効性を評価するためには, シーケンシャル推論の程度や能力の幅など, タスク複雑性の原則的理解が不可欠である。
そこで本研究では,2次元のタスクを特徴付ける理論的枠組みを提案する。
我々は,LLM-MASの代表クラス,すなわちマルチエージェント討論システムについて理論的に検討し,その深さと幅の異なる識別的タスクと生成的タスクの両方において,その性能を実証的に評価する。
LLM-SAS に対する LLM-MAS の利点はタスクの深さと幅の両方で増大し、その効果は深さに関してより顕著である。
LLM-MASがいつ有用かを明らかにし、将来のLCM-MASメソッドとベンチマークを設計するための原則的な基盤を提供する。
関連論文リスト
- X-MAS: Towards Building Multi-Agent Systems with Heterogeneous LLMs [38.8226073406788]
異種LLM駆動型マルチエージェントシステム(MAS)のパラダイムについて検討する。
X-MAS-Benchは、異なるドメインにわたる様々なLLMの性能とMAS関連の機能を評価するために設計された総合的なテストベッドである。
均質なMASから異質なMASへの移行は構造的再設計を必要とせずにシステム性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:56:39Z) - MAS-GPT: Training LLMs to Build LLM-based Multi-Agent Systems [43.41902313944615]
我々は、MASを生成言語タスクとして再定義することで、MASを構築するプロセスを簡単にする。
一貫性のあるクエリ-MASペアからなる高品質なデータセットを作成する。
生成されたMASは、ユーザクエリをシームレスに処理し、高品質なレスポンスを提供する。
論文 参考訳(メタデータ) (2025-03-05T17:27:59Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Efficient Dynamic Ensembling for Multiple LLM Experts [44.41847678666002]
異なるLLM専門家の強みに対するアンサンブル推論は、多様な入力に対して一貫した満足なパフォーマンスを達成するために重要である。
本研究では,動的入力を前提とした複数のLDMエキスパートの強みを統合するために,DERと呼ばれる効率的な動的アンサンブル推論パラダイムを提案する。
実験により,本手法では,最先端のベースラインに比べて計算資源が少なく,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-12-10T12:05:56Z) - Exploring Large Language Models for Multimodal Sentiment Analysis: Challenges, Benchmarks, and Future Directions [0.0]
マルチモーダル・アスペクトベース感性分析(MABSA)は、テキストや画像を含む多モーダル情報からアスペクト項とその対応する感情極性を抽出することを目的としている。
従来の教師付き学習手法はこの課題において有効性を示したが、大規模言語モデル(LLM)のMABSAへの適応性は未だ不明である。
Llama2、LLaVA、ChatGPTなどのLLMの最近の進歩は、一般的なタスクにおいて強力な能力を示しているが、MABSAのような複雑できめ細かなシナリオでは、その性能が過小評価されている。
論文 参考訳(メタデータ) (2024-11-23T02:17:10Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。