Fugu-MT 論文翻訳(概要): ToolMATH: A Math Tool Benchmark for Realistic Long-Horizon Multi-Tool Reasoning

論文の概要: ToolMATH: A Math Tool Benchmark for Realistic Long-Horizon Multi-Tool Reasoning

arxiv url: http://arxiv.org/abs/2602.21265v1
Date: Tue, 24 Feb 2026 09:23:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.561809
Title: ToolMATH: A Math Tool Benchmark for Realistic Long-Horizon Multi-Tool Reasoning
Title（参考訳）: ToolMATH: リアルタイムマルチツール推論のための数学ツールベンチマーク
Authors: Hyeonje Choi, Jeongsoo Lee, Hyojun Lee, Jay-Yoon Lee,
Abstract要約: ToolMATHは、数学の問題をツールセットによる制御された正当性チェック可能なベンチマークに変換する。 ToolMATHは、ツール拡張されたエージェントの障害モードの実行可能な診断証拠を提供する。
参考スコア（独自算出の注目度）: 11.99927786717109
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce \ToolMATH, a math-grounded benchmark that evaluates tool-augmented language models in realistic multi-tool environments where the output depends on calling schema-specified tools and sustaining multi-step execution. It turns math problems into a controlled, correctness-checkable benchmark with tool sets, enabling systematic evaluation of model reliability under (1) large, overlapping tool catalogs and (2) the absence of the intended capability. \ToolMATH provides actionable diagnostic evidence of failure modes in tool-augmented agents, helping identify the control mechanisms required for robustness. \ToolMATH roughly contains 8k questions and 12k tools; we provide an additional hard-set \ToolMATHHard with questions and tools. Our evaluation reveals that the key failure factor is due to the inability to reason, leading to the accumulation of intermediate results' errors and constrain later decisions. Tool-list redundancy do not simply add noise, but amplify small early deviations into irreversible execution drift. The benchmark highlights that when the intended capability is missing, distractor tools can sometimes serve as partial substitutes in solution paths, yet they can also mislead models into ungrounded tool trajectories. Finally, comparisons between tool-use protocols emphasize that improvements come less from local action selection and more from long-range plan coherence and disciplined use of observations.
Abstract（参考訳）: 本稿では,マルチツール環境におけるツール拡張言語モデルの評価を行う,算術的なベンチマークである \ToolMATH を紹介し,その出力は,スキーマ指定ツールの呼び出しとマルチステップ実行の継続に依存する。数学の問題をツールセットによる制御された正当性チェック可能なベンチマークに変換し,(1)大規模で重複するツールカタログと(2)意図した能力の欠如の下でモデルの信頼性を体系的に評価する。 \ToolMATHは、ツール強化されたエージェントの障害モードの実行可能な診断証拠を提供し、堅牢性に必要な制御メカニズムの特定を支援する。質問とツールを備えたハードセットの \ToolMATHHard を提供する。我々の評価では、重要な失敗要因は推論できないことによるものであり、中間結果のエラーが蓄積され、後の決定が制約されることが示されています。ツールリストの冗長性は単にノイズを追加するだけでなく、小さな早期偏差を不可逆的な実行ドリフトに増幅する。ベンチマークでは、意図した能力が欠如している場合には、イントラクタツールがソリューションパスの部分的な代用として機能する場合もあるが、モデルを非接地ツールトラジェクトリに誤解させることもできる、と強調している。最後に、ツール・ユース・プロトコルの比較では、改善は局所的な行動選択によるものよりも、長期計画の一貫性や観察の規律的利用によるものの方が少ないことが強調されている。

関連論文リスト

ToolTok: Tool Tokenization for Efficient and Generalizable GUI Agents [16.06309106596998]
ToolTokはGUIエージェントのための多段階パスフィニングの新しいパラダイムである。我々は,人間のインタラクションの習慣に沿ったツールを考案し,学習可能なトークン埋め込みを用いて各ツールを表現する。トークン定義質問回答,純テキスト誘導ツールの選択,視覚的パスフィニングの3つのタスクからなる,難易度の高いカリキュラムを構築した。
論文参考訳（メタデータ） (2026-01-30T08:38:05Z)
AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。 AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文参考訳（メタデータ） (2026-01-26T16:04:43Z)
From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models [18.072434766310458]
ツール拡張言語モデル(TaLM)は、パラメトリック能力を超えた問題を解決するために外部ツールを呼び出すことができる。ツールが正しく選択され、実行されたとしても、TaLMは推論の代用としてツール出力を扱います。
論文参考訳（メタデータ） (2025-11-14T02:21:34Z)
ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning [80.10274552177096]
外部ツールを備えたLarge Language Models (LLM) は、複雑な推論タスクにおけるパフォーマンスの向上を実証している。このツールに強化された推論が広く採用されるのは、ドメイン固有のツールが不足しているためである。構造化ツールライブラリに非構造化ツールのコレクションを自動的に組み込むための体系的なアプローチを提案する。
論文参考訳（メタデータ） (2025-10-09T04:11:16Z)
TRAJECT-Bench:A Trajectory-Aware Benchmark for Evaluating Agentic Tool Use [74.47746287181383]
大規模言語モデル(LLM)ベースのエージェントは、現実のタスクを完了するためのツールの使用にますます依存している。 LLMのツール使用能力を総合的に評価するためのトラジェクトリ対応ベンチマークであるTRAJECT-Benchを紹介する。
論文参考訳（メタデータ） (2025-10-06T07:30:25Z)
MCPVerse: An Expansive, Real-World Benchmark for Agentic Tool Use [72.53177559476704]
我々はエージェントツールの使用を評価するための実世界のベンチマークであるMCPVerseを紹介する。 MCPVerseは550以上の実世界の実行可能なツールを統合し、140kトークンを超える前例のないアクション空間を作成する。私たちは最先端のLSMを3つのモード(Oracle、Standard、Max-Scale)でベンチマークしました。
論文参考訳（メタデータ） (2025-08-22T09:47:53Z)
Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models [8.573278807410507]
ツール学習は、大きな言語モデル(LLM)の使用シナリオをさらに広げることができる。本稿では,新しいツール学習手法であるChain-of-Toolsを提案する。 CoT推論でツール呼び出しを終了するために、フリーズLDMの強力なセマンティック表現機能をフル活用する。
論文参考訳（メタデータ） (2025-03-21T01:26:12Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。 MeCoは微調整不要で、最小限のコストがかかる。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
Enhancing Tool Retrieval with Iterative Feedback from Large Language Models [9.588592185027455]
大規模言語モデル(LLM)は、コンテキスト内学習や微調整を通じて、ある程度のツールを効果的に扱うことができる。現実のシナリオでは、ツールの数は一般的に広範囲で不規則に更新され、専用のツール検索コンポーネントの必要性を強調している。本稿では,大規模言語モデルからの反復的なフィードバックでツール検索を強化することを提案する。
論文参考訳（メタデータ） (2024-06-25T11:12:01Z)
ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文参考訳（メタデータ） (2023-10-26T21:57:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。