論文の概要: From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.10899v1
- Date: Fri, 14 Nov 2025 02:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.393585
- Title: From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models
- Title(参考訳): 証明からプログラムへ:大規模言語モデルにおけるツールによる推論の表現
- Authors: Farima Fatahi Bayat, Pouya Pezeshkpour, Estevam Hruschka,
- Abstract要約: ツール拡張言語モデル(TaLM)は、パラメトリック能力を超えた問題を解決するために外部ツールを呼び出すことができる。
ツールが正しく選択され、実行されたとしても、TaLMは推論の代用としてツール出力を扱います。
- 参考スコア(独自算出の注目度): 18.072434766310458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-augmented Language Models (TaLMs) can invoke external tools to solve problems beyond their parametric capacity. However, it remains unclear whether these tool-enabled gains reflect trustworthy reasoning. Focusing on the Code Interpreter tool, we show that even when tools are selected and executed correctly, TaLMs treat tool outputs as substitutes for reasoning, producing solutions that appear correct but lack coherent justification. We term this failure mode Tool-Induced Myopia (TIM), and study it using PYMATH, a benchmark of 1,679 competition-level mathematical problems for which Python code is helpful but not sufficient. We further develop a multi-dimensional evaluation suite to quantify reasoning degradation in TaLMs relative to their non-tool counterparts. Our findings reveal that while TaLMs achieve up to a 19.3 percentage point gain in final-answer accuracy, their reasoning behavior consistently deteriorates (e.g., non-tool LLMs win up to 41.5% more often in pairwise comparisons of the reasoning process). This degradation intensifies with tool use; the more frequently a model invokes tools, the less coherent its reasoning becomes. Moreover, tool use shifts errors from arithmetic mistakes toward global reasoning failures (logic, assumption, creativity); with TIM present in ~55% of high-risk cases. Finally, we propose a preference-optimization-based framework that realigns TaLMs to use tools as assistive evidence, improving both final-answer accuracy and reasoning depth under tool use. Codes and data are available at: https://github.com/megagonlabs/TIM.
- Abstract(参考訳): ツール拡張言語モデル(TaLM)は、パラメトリック能力を超えた問題を解決するために外部ツールを呼び出すことができる。
しかし、これらのツールによる利益が信頼できる推論を反映するかどうかは不明だ。
Code Interpreterツールに注目すると、ツールが正しく選択され、実行されたとしても、TaLMはツール出力を推論の代用として扱い、正しいように見えるが、一貫性のある正当性を欠いたソリューションを生成する。
我々は、この障害モード Tool-induced Myopia (TIM) と呼び、Pythonコードが有用だが不十分な競合レベルの数学問題のベンチマークであるPYMATHを用いて研究する。
さらに,多次元評価スイートを開発し,TaLMの非ツールに対する推論劣化を定量的に評価する。
以上の結果から,TALMは最終回答精度で19.3%まで上昇するが,その推論行動は一貫して悪化することがわかった(例えば,非ツールLSMは2対比較で41.5%の確率で勝利する)。
モデルがツールを呼び出す頻度が高ければ多いほど、その推論が一貫性を増す。
さらに、ツールの使用は、エラーを算術ミスからグローバルな推論失敗(論理、仮定、創造性)にシフトさせる。
最後に,TaLMを補助的エビデンスとして活用し,最終回答精度とツール使用時の推論深度を向上する,嗜好最適化に基づくフレームワークを提案する。
コードとデータは、https://github.com/megagonlabs/TIM.comで入手できる。
関連論文リスト
- Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Self-Training Large Language Models for Tool-Use Without Demonstrations [15.17750971071501]
大規模言語モデル (LLMs) は、実際の不正確さや計算ミスに悩まされがちである。
最近の研究は、これらの欠点を緩和するツールを備えたLCMを強化しているが、しばしば金の工具使用デモを必要とする。
本稿では,LLMが実演なしでツールの活用を学べるかどうかを検討する。
論文 参考訳(メタデータ) (2025-02-09T12:06:10Z) - Meta-Reasoning Improves Tool Use in Large Language Models [10.193264105560864]
本稿では,タスクを最初に理由付け,候補ツールを出力する2段階システムであるTECTON(Meta-reasONing)によるツール選択を提案する。
TECTONは、様々な数学推論データセットにおいて、分布内と分布外の両方において、実質的なゲインをもたらす。
論文 参考訳(メタデータ) (2024-11-07T08:48:33Z) - Multi-tool Integration Application for Math Reasoning Using Large Language Model [1.4582633500696451]
本稿では,数学的推論のための新しいマルチツールアプリケーションフレームワークを提案する。
大規模言語モデル(LLM)と複数の外部ツールの協調効果を利用して、より包括的で正確な数学的推論を実現することを目的としている。
論文 参考訳(メタデータ) (2024-08-22T06:27:10Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。