論文の概要: Smurfs: Multi-Agent System using Context-Efficient DFSDT for Tool Planning
- arxiv url: http://arxiv.org/abs/2405.05955v4
- Date: Sat, 14 Jun 2025 01:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:44.491754
- Title: Smurfs: Multi-Agent System using Context-Efficient DFSDT for Tool Planning
- Title(参考訳): Smurfs: ツールプランニングのためのコンテキスト効率DSSDTを用いたマルチエージェントシステム
- Authors: Junzhi Chen, Juhao Liang, Benyou Wang,
- Abstract要約: Smurfsは、DFSDTをモジュール的で、文脈効率が高く、トレーニング不要な設計で強化する新しいマルチエージェントシステムである。
Smurfsは、オープンエンドのStableToolBenchとクローズドエンドのHotpotQAタスクのベースラインメソッドを上回っている。
- 参考スコア(独自算出の注目度): 14.635361844362794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Teaching large language models (LLMs) to use tools for solving complex problems can grant them human-like reasoning abilities. ReAct and its variants are popular frameworks for tool use in both single-agent and multi-agent systems. To address issues like error propagation and limited exploration in ReAct, the Deep First Search Decision Tree (DFSDT) was proposed, but it faces challenges such as rollback instability, redundant context, and premature termination in single-agent settings. We introduce "Smurfs," a novel multi-agent system (MAS) that enhances DFSDT with a modular, context-efficient, and training-free design. Smurfs surpasses baseline methods in both the open-ended StableToolBench and the closed-ended HotpotQA tasks, reducing token usage by 60.9\% compared to DFSDT and enabling Mistral-7b to perform on par with GPT-4-DFSDT. Extensive ablation studies confirm the effectiveness of Smurfs' core components, offering valuable insights for the construction and interpretation of MAS, and paving the way for future exploration.
- Abstract(参考訳): 大きな言語モデル(LLM)に複雑な問題を解決するためのツールを教えることで、人間のような推論能力を与えることができる。
ReActとその変種は、シングルエージェントシステムとマルチエージェントシステムの両方でツールを使用するための人気のあるフレームワークである。
エラーの伝播やReActでの探索の制限といった問題に対処するため、Deep First Search Decision Tree (DFSDT) が提案されたが、ロールバックの不安定性、冗長なコンテキスト、単一エージェント設定での早期終了といった課題に直面している。
我々は,DFSDTをモジュール化,コンテキスト効率,トレーニング不要な設計で強化する新しいマルチエージェントシステムである"Smurfs"を紹介する。
Smurfsは、オープンエンドのStableToolBenchとクローズドエンドのHotpotQAタスクの両方のベースラインメソッドを超え、トークン使用量をDFSDTと比較して60.9\%削減し、Mistral-7bがGPT-4-DFSDTと同等のパフォーマンスを実現している。
大規模なアブレーション研究は、Smurfsのコアコンポーネントの有効性を確認し、MASの構築と解釈に貴重な洞察を与え、将来の探査への道を開く。
関連論文リスト
- Multi-LLM Collaborative Search for Complex Problem Solving [54.194370845153784]
そこで我々は,Mixture-of-Search-Agents(MoSA)パラダイムを提案する。
MoSAは、独立した探索とLCM間の反復的精錬を組み合わせることで、様々な推論経路を統合する。
モンテカルロ木探索(MCTS)をバックボーンとして使用することにより、複数のエージェントが推論ステップを提案して集約することが可能となり、精度が向上する。
論文 参考訳(メタデータ) (2025-02-26T06:31:04Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - AgentPS: Agentic Process Supervision for Multi-modal Content Quality Assurance through Multi-round QA [9.450927573476822]
textitAgentPSは、エージェントプロセススーパービジョンをMLLMに統合する新しいフレームワークである。
textitAgentPSは、プロプライエタリなTikTokデータセット上でのベースラインMLLMよりも大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-12-15T04:58:00Z) - MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability [12.349247962800813]
大規模言語モデル(LLM)は多くのAI問題に対する強力なツールとして登場した。
また、ICL(In-context Learning)機能も備えている。
複合的なタスクにどのようにアプローチするかは、未解明の未解決の問題のままである。
論文 参考訳(メタデータ) (2024-07-22T15:22:34Z) - Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning [12.80689911863731]
Sibylは、最小限のツールセットを効率的に活用することによって、複雑な推論タスクに取り組むように設計された強力なフレームワークである。
Sibylは、最終回答を自己定義し、包括的でバランスの取れたアプローチを確保するために、マルチエージェントの議論に基づく陪審を実施。
GAIAベンチマークテストセットの実験結果から,Sibylエージェントは平均スコア34.55%の最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2024-07-15T13:45:40Z) - Adaptive In-conversation Team Building for Language Model Agents [33.03550687362213]
複数の大規模言語モデル(LLM)エージェントを活用することは、複雑なタスクに取り組む上で有望なアプローチであることが示されている。
私たちの新しい適応型チーム構築パラダイムは、Captain Agentという新しいエージェント設計を通じて実現された柔軟なソリューションを提供します。
6つの実世界のシナリオに対する包括的な評価は、Captain Agentが既存のマルチエージェントメソッドを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-29T18:08:37Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。