論文の概要: TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture
- arxiv url: http://arxiv.org/abs/2510.01279v1
- Date: Tue, 30 Sep 2025 19:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.784914
- Title: TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture
- Title(参考訳): TUMIX: ツールとツールの混合によるマルチエージェントのテスト時間スケーリング
- Authors: Yongchao Chen, Jiefeng Chen, Rui Meng, Ji Yin, Na Li, Chuchu Fan, Chi Wang, Tomas Pfister, Jinsung Yoon,
- Abstract要約: 本稿では,複数のエージェントを並列に実行するアンサンブルフレームワークを提案する。
TUmixは、最先端のツール拡張およびテストタイムスケーリングメソッドよりも大幅に向上する。
エージェントの多様性と品質は重要であり,LLMを用いてエージェント設計を自動最適化することで向上することができる。
- 参考スコア(独自算出の注目度): 60.945393748584316
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: While integrating tools like Code Interpreter and Search has significantly enhanced Large Language Model (LLM) reasoning in models like ChatGPT Agent and Gemini-Pro, practical guidance on optimal tool use is lacking. The core challenge is effectively combining textual reasoning, coding, and search for diverse questions. In this paper, we propose Tool-Use Mixture (TUMIX), an ensemble framework that runs multiple agents in parallel, each employing distinct tool-use strategies and answer paths. Agents in TUMIX iteratively share and refine responses based on the question and previous answers. In experiments, TUMIX achieves significant gains over state-of-the-art tool-augmented and test-time scaling methods, delivering an average accuracy improvement of up to 3.55% over the best baseline on Gemini-2.5-Pro and Gemini-2.5-Flash across key reasoning benchmarks, with near-equal inference costs. We find that agent diversity and quality are crucial and can be enhanced by using LLMs to auto-optimize agent designs. Furthermore, TUMIX can halt refinement upon reaching sufficient confidence, preserving performance at only 49% of the inference cost. Further scaling can achieve higher performance, albeit at a greater cost.
- Abstract(参考訳): Code InterpreterやSearchのようなツールを統合することで、ChatGPT AgentやGemini-ProといったモデルでのLarge Language Model(LLM)推論が大幅に向上する一方で、最適なツール使用に関する実践的なガイダンスが欠如している。
主な課題は、テキスト推論、コーディング、さまざまな質問の検索を効果的に組み合わせることである。
本稿では,複数のエージェントを並列に実行するアンサンブルフレームワークであるTool-Use Mixture(TUMIX)を提案する。
TUMIXのエージェントは、質問と以前の回答に基づいて繰り返し回答を共有し、洗練する。
実験では、TUMIXは最先端のツール拡張およびテストタイムスケーリングメソッドよりも大幅に向上し、キー推論ベンチマーク全体にわたってGemini-2.5-ProとGemini-2.5-Flashの最高のベースラインに対して平均精度が3.55%向上し、推論コストがほぼ等しい。
エージェントの多様性と品質は重要であり,LLMを用いてエージェント設計を自動最適化することで向上することができる。
さらに、TUMIXは十分な信頼性を達成し、推論コストのわずか49%で性能を維持することができる。
さらなるスケーリングは、より高いコストで、より高いパフォーマンスを実現することができる。
関連論文リスト
- Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use [50.02614257515131]
大規模言語モデル(LLM)は、言語理解と推論において強力な能力を示している。
本稿では,LLMの汎用的,構成的,多段階的なツール使用を可能にする強化学習フレームワークであるTool-R1を提案する。
論文 参考訳(メタデータ) (2025-09-16T09:22:21Z) - Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning [69.32855772335624]
コントローラ、例えば視覚言語モデルと外部ツールを統合するマルチモーダルエージェントは、複雑なマルチモーダルタスクに対処する際、顕著な能力を示した。
これらのエージェントを訓練するための既存のアプローチは、広範囲なヒューマン・アノテートされたタスク・アンサー・ペアとツール・トラジェクトリに依存している。
本研究では,事前に収集したデータのないマルチモーダルエージェント,すなわち SPORT の反復ツール利用探索手法を提案する。
Sportには、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントがある。
論文 参考訳(メタデータ) (2025-04-30T12:01:27Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
GPT4o-miniのような強力なLCMやマルチエージェントアプローチに勝るSymbolic-MoEは、最高のマルチエージェントベースラインよりも8.15%向上している。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - Multi-tool Integration Application for Math Reasoning Using Large Language Model [1.4582633500696451]
本稿では,数学的推論のための新しいマルチツールアプリケーションフレームワークを提案する。
大規模言語モデル(LLM)と複数の外部ツールの協調効果を利用して、より包括的で正確な数学的推論を実現することを目的としている。
論文 参考訳(メタデータ) (2024-08-22T06:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。