論文の概要: ToolMATH: A Math Tool Benchmark for Realistic Long-Horizon Multi-Tool Reasoning
- arxiv url: http://arxiv.org/abs/2602.21265v1
- Date: Tue, 24 Feb 2026 09:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.561809
- Title: ToolMATH: A Math Tool Benchmark for Realistic Long-Horizon Multi-Tool Reasoning
- Title(参考訳): ToolMATH: リアルタイムマルチツール推論のための数学ツールベンチマーク
- Authors: Hyeonje Choi, Jeongsoo Lee, Hyojun Lee, Jay-Yoon Lee,
- Abstract要約: ToolMATHは、数学の問題をツールセットによる制御された正当性チェック可能なベンチマークに変換する。
ToolMATHは、ツール拡張されたエージェントの障害モードの実行可能な診断証拠を提供する。
- 参考スコア(独自算出の注目度): 11.99927786717109
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce \ToolMATH, a math-grounded benchmark that evaluates tool-augmented language models in realistic multi-tool environments where the output depends on calling schema-specified tools and sustaining multi-step execution. It turns math problems into a controlled, correctness-checkable benchmark with tool sets, enabling systematic evaluation of model reliability under (1) large, overlapping tool catalogs and (2) the absence of the intended capability. \ToolMATH provides actionable diagnostic evidence of failure modes in tool-augmented agents, helping identify the control mechanisms required for robustness. \ToolMATH roughly contains 8k questions and 12k tools; we provide an additional hard-set \ToolMATHHard with questions and tools. Our evaluation reveals that the key failure factor is due to the inability to reason, leading to the accumulation of intermediate results' errors and constrain later decisions. Tool-list redundancy do not simply add noise, but amplify small early deviations into irreversible execution drift. The benchmark highlights that when the intended capability is missing, distractor tools can sometimes serve as partial substitutes in solution paths, yet they can also mislead models into ungrounded tool trajectories. Finally, comparisons between tool-use protocols emphasize that improvements come less from local action selection and more from long-range plan coherence and disciplined use of observations.
- Abstract(参考訳): 本稿では,マルチツール環境におけるツール拡張言語モデルの評価を行う,算術的なベンチマークである \ToolMATH を紹介し,その出力は,スキーマ指定ツールの呼び出しとマルチステップ実行の継続に依存する。
数学の問題をツールセットによる制御された正当性チェック可能なベンチマークに変換し,(1)大規模で重複するツールカタログと(2)意図した能力の欠如の下でモデルの信頼性を体系的に評価する。
\ToolMATHは、ツール強化されたエージェントの障害モードの実行可能な診断証拠を提供し、堅牢性に必要な制御メカニズムの特定を支援する。
質問とツールを備えたハードセットの \ToolMATHHard を提供する。
我々の評価では、重要な失敗要因は推論できないことによるものであり、中間結果のエラーが蓄積され、後の決定が制約されることが示されています。
ツールリストの冗長性は単にノイズを追加するだけでなく、小さな早期偏差を不可逆的な実行ドリフトに増幅する。
ベンチマークでは、意図した能力が欠如している場合には、イントラクタツールがソリューションパスの部分的な代用として機能する場合もあるが、モデルを非接地ツールトラジェクトリに誤解させることもできる、と強調している。
最後に、ツール・ユース・プロトコルの比較では、改善は局所的な行動選択によるものよりも、長期計画の一貫性や観察の規律的利用によるものの方が少ないことが強調されている。
関連論文リスト
- AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - TRAJECT-Bench:A Trajectory-Aware Benchmark for Evaluating Agentic Tool Use [74.47746287181383]
大規模言語モデル(LLM)ベースのエージェントは、現実のタスクを完了するためのツールの使用にますます依存している。
LLMのツール使用能力を総合的に評価するためのトラジェクトリ対応ベンチマークであるTRAJECT-Benchを紹介する。
論文 参考訳(メタデータ) (2025-10-06T07:30:25Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Enhancing Tool Retrieval with Iterative Feedback from Large Language Models [9.588592185027455]
大規模言語モデル(LLM)は、コンテキスト内学習や微調整を通じて、ある程度のツールを効果的に扱うことができる。
現実のシナリオでは、ツールの数は一般的に広範囲で不規則に更新され、専用のツール検索コンポーネントの必要性を強調している。
本稿では,大規模言語モデルからの反復的なフィードバックでツール検索を強化することを提案する。
論文 参考訳(メタデータ) (2024-06-25T11:12:01Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。