論文の概要: When to Trust Tools? Adaptive Tool Trust Calibration For Tool-Integrated Math Reasoning
- arxiv url: http://arxiv.org/abs/2604.08281v1
- Date: Thu, 09 Apr 2026 14:14:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.954411
- Title: When to Trust Tools? Adaptive Tool Trust Calibration For Tool-Integrated Math Reasoning
- Title(参考訳): ツールを信頼するには? ツール集約型数学推論のための適応的ツール信頼キャリブレーション
- Authors: Ruotao Xu, Yixin Ji, Yu Luo, Jinpeng Li, Dong Li, Peifeng Li, Juntao Li, Min Zhang,
- Abstract要約: Tool-Integrated Reasoningは、推論軌道にツール呼び出しと実行を組み込む有望なパラダイムとして登場した。
モデルの推論がツールの結果と矛盾する場合、モデルは自身の推論を信じる傾向にあります。
アダプティブ・ツール・トラスト(ATTC、Adaptive Tool Trust)は、モデルに対して、ツール結果の信頼性や無視を適応的に選択するフレームワークである。
- 参考スコア(独自算出の注目度): 58.75883713573783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) have achieved strong performance enhancement through scaling test time computation, but due to the inherent limitations of the underlying language models, they still have shortcomings in tasks that require precise computation and extensive knowledge reserves. Tool-Integrated Reasoning (TIR) has emerged as a promising paradigm that incorporates tool call and execution within the reasoning trajectory. Although recent works have released some powerful open-source TIR models, our analysis reveals that these models still suffer from critical deficiencies. We find that when the reasoning of the model conflicts with the tool results, the model tends to believe in its own reasoning. And there are cases where the tool results are correct but are ignored by the model, resulting in incorrect answers, which we define as "Tool Ignored''. This indicates that the model does not know when to trust or ignore the tool. To overcome these limitations, We introduce Adaptive Tool Trust Calibration (ATTC), a novel framework that guides the model to adaptively choose to trust or ignore the tool results based on the confidence score of generated code blocks. The experimental results from various open-source TIR models of different sizes and across multiple datasets demonstrate that ATTC effectively reduces the "Tool Ignored" issue, resulting in a performance increase of 4.1% to 7.5%.
- Abstract(参考訳): 大規模推論モデル(LRM)は、テスト時間計算のスケーリングによって強力なパフォーマンス向上を実現しているが、基礎となる言語モデル固有の制限のため、正確な計算と広範囲な知識予約を必要とするタスクにはまだ欠点がある。
Tool-Integrated Reasoning (TIR)は、推論軌道にツール呼び出しと実行を組み込む有望なパラダイムとして登場した。
最近の研究でいくつかの強力なオープンソースTIRモデルがリリースされたが、分析の結果、これらのモデルが依然として重大な欠陥に悩まされていることが明らかとなった。
モデルの推論がツールの結果と矛盾する場合、モデルは自身の推論を信じる傾向にあります。
そして、ツール結果が正しいが、モデルによって無視されるケースがあり、それが「ツール無視」と定義されている。これは、このモデルがいつツールを信頼するか、無視するかを知らないことを示している。これらの制限を克服するために、生成されたコードブロックの信頼スコアに基づいて、モデルを適応的にツールの結果を信頼または無視することをガイドする新しいフレームワークであるAdaptive Tool Trust Calibration(ATTC)を導入する。様々なサイズのオープンソースTIRモデルによる実験結果から、ATTCが「ツール無視」問題を効果的に低減し、パフォーマンスが4.1%から7.5%に向上することを示した。
関連論文リスト
- ToolMATH: A Math Tool Benchmark for Realistic Long-Horizon Multi-Tool Reasoning [11.99927786717109]
ToolMATHは、数学の問題をツールセットによる制御された正当性チェック可能なベンチマークに変換する。
ToolMATHは、ツール拡張されたエージェントの障害モードの実行可能な診断証拠を提供する。
論文 参考訳(メタデータ) (2026-02-24T09:23:12Z) - From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models [18.072434766310458]
ツール拡張言語モデル(TaLM)は、パラメトリック能力を超えた問題を解決するために外部ツールを呼び出すことができる。
ツールが正しく選択され、実行されたとしても、TaLMは推論の代用としてツール出力を扱います。
論文 参考訳(メタデータ) (2025-11-14T02:21:34Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning [68.89572566071575]
Tool-Integrated Reasoning (TIR)により、大きな言語モデル(LLM)は、外部ツールを統合することで、内部推論能力を改善することができる。
提案するTool-Lightは,LDMがTIRを効率的にかつ正確に実行できるようにするためのフレームワークである。
10個のデータセットの実験結果は、ツールライトの有効性を示している。
論文 参考訳(メタデータ) (2025-09-27T12:53:37Z) - MICE for CATs: Model-Internal Confidence Estimation for Calibrating Agents with Tools [54.63478102768333]
十分に校正されたモデル信頼度は、潜在的な行動の報酬に対するリスクを測るために使用することができる。
本稿では,ツール呼び出し時の信頼度を評価するために,モデル内信頼度推定器(MICE)の新たなクラスを提案する。
論文 参考訳(メタデータ) (2025-04-28T18:06:38Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use [56.31110409360567]
大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。
我々は,この制限を緩和するために,反復的に強化された微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:52:34Z) - SMARTCAL: An Approach to Self-Aware Tool-Use Evaluation and Calibration [24.739131794947838]
我々は,2つの主要なツール・ユース・フレームワークを持つ3つのデータセット上で,最先端のLarge Language Models (LLM) ファミリーの研究を行う。
本研究は,自信過剰にツールを誤用する傾向にあるLSMのツール使用行動を明らかにする。
我々は、観察された問題を緩和するための新しいアプローチ、textitCALを提案する。
論文 参考訳(メタデータ) (2024-12-11T06:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。