論文の概要: IMAGINE: Integrating Multi-Agent System into One Model for Complex Reasoning and Planning
- arxiv url: http://arxiv.org/abs/2510.14406v1
- Date: Thu, 16 Oct 2025 08:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.772043
- Title: IMAGINE: Integrating Multi-Agent System into One Model for Complex Reasoning and Planning
- Title(参考訳): IMAGINE:複雑な推論と計画のための1つのモデルにマルチエージェントシステムを統合する
- Authors: Xikai Zhang, Bo Wang, Likang Xiao, Yongzhi Li, Quan Chen, Wenju Wu, Liu Liu,
- Abstract要約: マルチエージェントシステムを1つのモデルに統合するための短いIMAGINEを提案する。
このフレームワークは、MASの推論と計画能力を単一のコンパクトモデルに統合する。
単一の小規模モデルは、よく組織されたMASの構造的推論と計画能力を取得することができる。
- 参考スコア(独自算出の注目度): 9.362872354618615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models (LLMs) have made significant strides across various tasks, they still face significant challenges in complex reasoning and planning. For example, even with carefully designed prompts and prior information explicitly provided, GPT-4o achieves only a 7% Final Pass Rate on the TravelPlanner dataset in the sole-planning mode. Similarly, even in the thinking mode, Qwen3-8B-Instruct and DeepSeek-R1-671B, only achieve Final Pass Rates of 5.9% and 40%, respectively. Although well-organized Multi-Agent Systems (MAS) can offer improved collective reasoning, they often suffer from high reasoning costs due to multi-round internal interactions, long per-response latency, and difficulties in end-to-end training. To address these challenges, we propose a general and scalable framework called IMAGINE, short for Integrating Multi-Agent System into One Model. This framework not only integrates the reasoning and planning capabilities of MAS into a single, compact model, but also significantly surpass the capabilities of the MAS through a simple end-to-end training. Through this pipeline, a single small-scale model is not only able to acquire the structured reasoning and planning capabilities of a well-organized MAS but can also significantly outperform it. Experimental results demonstrate that, when using Qwen3-8B-Instruct as the base model and training it with our method, the model achieves an 82.7% Final Pass Rate on the TravelPlanner benchmark, far exceeding the 40% of DeepSeek-R1-671B, while maintaining a much smaller model size.
- Abstract(参考訳): 大きな言語モデル(LLM)は様々なタスクで大きな進歩を遂げてきたが、複雑な推論と計画において依然として大きな課題に直面している。
例えば、慎重に設計されたプロンプトと事前情報を明示的に提供しても、単独の計画モードでTravelPlannerデータセットのファイナルパスレートは7%に過ぎません。
同様に、シンキングモードでも、Qwen3-8B-InstructとDeepSeek-R1-671Bは、それぞれ5.9%と40%のファイナルパスレートしか達成していない。
十分に組織されたマルチエージェントシステム(MAS)は、集団推論を改善することができるが、多体的な内部相互作用、長時間の応答遅延、エンドツーエンドトレーニングの困難により、高い推論コストに悩まされることが多い。
これらの課題に対処するために,マルチエージェントシステムを1つのモデルに統合するための,汎用的でスケーラブルなフレームワーク IMAGINE を提案する。
このフレームワークは、MASの推論能力と計画能力を単一のコンパクトモデルに統合するだけでなく、単純なエンドツーエンドのトレーニングによってMASの能力をはるかに上回っている。
このパイプラインを通じて、単一の小規模モデルが、構造化されたMASの構造的推論と計画能力を取得するだけでなく、その性能も大幅に向上する。
実験の結果,Qwen3-8B-Instructをベースモデルとして使用し,本手法を用いてトレーニングすると,TravelPlannerベンチマークでは82.7%のファイナルパスレートが達成され,DeepSeek-R1-671Bの40%をはるかに上回っている。
関連論文リスト
- Training Task Reasoning LLM Agents for Multi-turn Task Planning via Single-turn Reinforcement Learning [15.393743659727926]
大規模言語モデル(LLM)は、知識獲得、推論、ツール使用において顕著な能力を示した。
本稿では,マルチターンタスク計画を単一ターンタスク推論問題に変換する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-09-24T23:47:36Z) - PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving [66.42260489147617]
大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。
複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。
本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
論文 参考訳(メタデータ) (2025-07-10T07:30:44Z) - Efficient LLM Collaboration via Planning [56.081879390960204]
小規模で大規模なモデルでは、プランナーと実行担当者として交代で行動し、タスクを協調的に解決するために、多段階のカスケードでプランを交換する。
私たちはCOPEが大規模プロプライエタリモデルに匹敵するパフォーマンスを実現し,推論APIのコストを大幅に削減できることを実証した。
論文 参考訳(メタデータ) (2025-06-13T08:35:50Z) - Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead [33.011660907969706]
推論時間スケーリングは、大きな言語モデルの推論能力を高めることができる。
本研究では,9つの最先端モデルと8つの課題にまたがるスケーリング手法の利点と限界について検討する。
論文 参考訳(メタデータ) (2025-03-31T23:40:28Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Smurfs: Multi-Agent System using Context-Efficient DFSDT for Tool Planning [14.635361844362794]
Smurfsは、DFSDTをモジュール的で、文脈効率が高く、トレーニング不要な設計で強化する新しいマルチエージェントシステムである。
Smurfsは、オープンエンドのStableToolBenchとクローズドエンドのHotpotQAタスクのベースラインメソッドを上回っている。
論文 参考訳(メタデータ) (2024-05-09T17:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。