論文の概要: A Toolbox, Not a Hammer -- Multi-TAG: Scaling Math Reasoning with Multi-Tool Aggregation
- arxiv url: http://arxiv.org/abs/2507.18973v1
- Date: Fri, 25 Jul 2025 05:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.833563
- Title: A Toolbox, Not a Hammer -- Multi-TAG: Scaling Math Reasoning with Multi-Tool Aggregation
- Title(参考訳): ツールボックスはハマーではない - Multi-TAG: Multi-Tool Aggregation による数学推論のスケーリング
- Authors: Bohan Yao, Vikas Yadav,
- Abstract要約: 大規模言語モデルを外部ツールで拡張することは、高性能な数学的推論システムを開発する上で有望な方法である。
マルチツールアグリゲーションベースのフレームワークであるMulti-TAGを提案する。
我々は,MATH500,AIME,AMC,OlympiadBenchの4つのベンチマークでマルチTAGを評価した。
- 参考スコア(独自算出の注目度): 3.9934895621294295
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Augmenting large language models (LLMs) with external tools is a promising avenue for developing high-performance mathematical reasoning systems. Prior tool-augmented approaches typically finetune an LLM to select and invoke a single tool at each reasoning step and show promising results on simpler math reasoning benchmarks such as GSM8K. However, these approaches struggle with more complex math problems that require precise reasoning over multiple steps. To address this limitation, in this work, we propose Multi-TAG, a Multi-Tool AGgregation-based framework. Instead of relying on a single tool, Multi-TAG guides an LLM to concurrently invoke multiple tools at each reasoning step. It then aggregates their diverse outputs to verify and refine the reasoning process, enhancing solution robustness and accuracy. Notably, Multi-TAG is a finetuning-free, inference-only framework, making it readily applicable to any LLM backbone, including large open-weight models which are computationally expensive to finetune and proprietary frontier models which cannot be finetuned with custom recipes. We evaluate Multi-TAG on four challenging benchmarks: MATH500, AIME, AMC, and OlympiadBench. Across both open-weight and closed-source LLM backbones, Multi-TAG consistently and substantially outperforms state-of-the-art baselines, achieving average improvements of 6.0% to 7.5% over state-of-the-art baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)を外部ツールで拡張することは、高性能な数学的推論システムを開発する上で有望な方法である。
従来のツール拡張アプローチでは、通常、LSMを微調整して、各推論ステップで1つのツールを選択して呼び出し、GSM8Kのようなより単純な数学推論ベンチマークで有望な結果を示す。
しかし、これらのアプローチは、複数のステップを正確に推論する必要があるより複雑な数学の問題に苦しむ。
この制限に対処するため,本稿ではマルチツールアグリゲーションベースのフレームワークであるMulti-TAGを提案する。
単一のツールに頼る代わりに、Multi-TAGはLLMをガイドして、各推論ステップで複数のツールを同時に呼び出す。
その後、さまざまなアウトプットを集約して、推論プロセスの検証と洗練を行い、ソリューションの堅牢性と正確性を高める。
特に、Multi-TAGは微調整のない推論のみのフレームワークであり、カスタムレシピで微調整できない、計算的に高価でプロプライエタリなフロンティアモデルを含む、いかなるLLMバックボーンにも容易に適用できる。
我々は,MATH500,AIME,AMC,OlympiadBenchの4つのベンチマークでマルチTAGを評価した。
オープンウェイトとクローズドソースの両方のLCMバックボーンでは、Multi-TAGは一貫して、最先端ベースラインよりも6.0%から7.5%向上している。
関連論文リスト
- MergeBench: A Benchmark for Merging Domain-Specialized LLMs [19.49737955489798]
MergeBenchは、スケールでのモデルマージを評価するために設計された評価スイートである。
2Bから9BスケールのLlamaやGemmaファミリなど、最先端のオープンソース言語モデルの上に構築されている。
マルチタスク性能, 忘れられたこと, 実行効率にまたがる8つの代表的なマージ手法を評価した。
論文 参考訳(メタデータ) (2025-05-16T04:02:55Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
GPT4o-miniのような強力なLCMやマルチエージェントアプローチに勝るSymbolic-MoEは、最高のマルチエージェントベースラインよりも8.15%向上している。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models [66.64809260956312]
MTU-Benchと呼ばれる大規模言語モデルのための多言語ツール使用ベンチマークを提案する。
私たちのMTU-Benchは、既存の高品質データセットを変換して、実際のツール使用シナリオをシミュレートすることで収集されます。
MTU-Bench の総合的な実験結果から, MTU-Bench の有効性が示唆された。
論文 参考訳(メタデータ) (2024-10-15T15:46:17Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - ART: Automatic multi-step reasoning and tool-use for large language
models [105.57550426609396]
大規模言語モデル(LLM)は、数秒とゼロショットの設定で複雑な推論を行うことができる。
各推論ステップは、コアLLM機能を超えて計算をサポートする外部ツールに依存することができる。
プログラムとして中間推論ステップを自動生成するために凍結LDMを使用するフレームワークであるART(Automatic Reasoning and Tool-use)を導入する。
論文 参考訳(メタデータ) (2023-03-16T01:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。