論文の概要: When Do Multi-Agent Systems Outperform? Analysing the Learning Efficiency of Agentic Systems
- arxiv url: http://arxiv.org/abs/2602.08272v1
- Date: Mon, 09 Feb 2026 05:08:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.06956
- Title: When Do Multi-Agent Systems Outperform? Analysing the Learning Efficiency of Agentic Systems
- Title(参考訳): マルチエージェントシステムの性能はいつ向上するか? : エージェントシステムの学習効率の分析
- Authors: Junwei Su, Chuan Wu,
- Abstract要約: MARL(Multi-Agent Reinforcement Learning)は、複雑なタスクを特殊なサブタスクに分解することで、有望な方法を提供する。
本稿では,大規模言語モデル(LLM)の文脈におけるMARLとSARLの比較サンプル効率を厳密に分析する。
その結果,MARLはタスクが自然に独立したサブタスクに分解されるのに対して,依存サブタスクはMARLの比較優位性を低下させることがわかった。
- 参考スコア(独自算出の注目度): 19.835807214272457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has emerged as a crucial method for training or fine-tuning large language models (LLMs), enabling adaptive, task-specific optimizations through interactive feedback. Multi-Agent Reinforcement Learning (MARL), in particular, offers a promising avenue by decomposing complex tasks into specialized subtasks learned by distinct interacting agents, potentially enhancing the ability and efficiency of LLM systems. However, theoretical insights regarding when and why MARL outperforms Single-Agent RL (SARL) remain limited, creating uncertainty in selecting the appropriate RL framework. In this paper, we address this critical gap by rigorously analyzing the comparative sample efficiency of MARL and SARL within the context of LLM. Leveraging the Probably Approximately Correct (PAC) framework, we formally define SARL and MARL setups for LLMs, derive explicit sample complexity bounds, and systematically characterize how task decomposition and alignment influence learning efficiency. Our results demonstrate that MARL improves sample complexity when tasks naturally decompose into independent subtasks, whereas dependent subtasks diminish MARL's comparative advantage. Additionally, we introduce and analyze the concept of task alignment, quantifying the trade-offs when enforcing independent task decomposition despite potential misalignments. These theoretical insights clarify empirical inconsistencies and provide practical criteria for deploying MARL strategies effectively in complex LLM scenarios.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は,大規模言語モデル(LLM)の訓練や微調整において重要な手法として登場し,対話型フィードバックによる適応的タスク固有最適化を実現している。
特にMARL(Multi-Agent Reinforcement Learning)は、複雑なタスクを異なる相互作用エージェントによって学習された特別なサブタスクに分解し、LLMシステムの能力と効率を向上することで、有望な方法を提供する。
しかし、MARLがSARL(Single-Agent RL)より優れている理由に関する理論的考察は、適切なRLフレームワークを選択する上で不確実性をもたらす。
本稿では,MARL と SARL の比較試料効率を LLM の文脈で厳密に解析することにより,この臨界ギャップに対処する。
Probably Aough Correct (PAC) フレームワークを利用することで、LSMのSARLとMARLのセットアップを正式に定義し、明示的なサンプル複雑性境界を導出し、タスクの分解とアライメントが学習効率にどのように影響するかを体系的に特徴づける。
その結果,MARLはタスクが自然に独立したサブタスクに分解されるのに対して,依存サブタスクはMARLの比較優位性を低下させることがわかった。
さらに,タスクアライメントの概念を導入,分析し,潜在的なミスアライメントに拘わらず,独立したタスク分解を行う際のトレードオフを定量化する。
これらの理論的な洞察は、経験的不整合を明らかにし、複雑なLLMシナリオにMARL戦略を効果的に展開するための実践的基準を提供する。
関連論文リスト
- LLM-FS-Agent: A Deliberative Role-based Large Language Model Architecture for Transparent Feature Selection [0.0]
本稿では,LLM-FS-Agentについて紹介する。
CIC-DIAD 2024 IoT 侵入検出データセットを用いて,サイバーセキュリティ領域における LLM-FS-Agent の評価を行った。
論文 参考訳(メタデータ) (2025-10-07T13:46:06Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - RLAE: Reinforcement Learning-Assisted Ensemble for LLMs [21.77261258691006]
大規模言語モデル(LLM)は、様々なモデルの多様な強みを効果的に組み合わせ、様々なタスクのパフォーマンスを高めるための有望なアプローチを提供する。
マルコフ決定プロセス(MDP)のレンズを通してアンサンブルを再構成する新しいフレームワークであるLLMのための強化学習支援アンサンブルを提案する。
提案手法では,入力コンテキストと中間生成状態の両方を考慮してアンサンブル重みを動的に調整するRLエージェントを提案する。
論文 参考訳(メタデータ) (2025-05-31T07:38:41Z) - LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities [21.42711537107199]
我々は,Large Language Models (LLMs) が意思決定シナリオにおいてサブ最適に機能する理由を考察する。
自己生成型CoT論理の強化学習(Reinforcement Learning, RL)による微調整によるこれらの欠点の緩和を提案する。
論文 参考訳(メタデータ) (2025-04-22T17:57:14Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Representation Learning For Efficient Deep Multi-Agent Reinforcement Learning [10.186029242664931]
我々は,MARL訓練を補完するために考案された総合表現学習の形式を適用したMAPO-LSOを提案する。
特に、MAPO-LSOは遷移力学再構成と自己予測学習のマルチエージェント拡張を提案する。
実験の結果,MAPO-LSOはバニラMARLと比較して,サンプル効率と学習性能の顕著な向上を示した。
論文 参考訳(メタデータ) (2024-06-05T03:11:44Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。