論文の概要: Understanding Tool-Integrated Reasoning
- arxiv url: http://arxiv.org/abs/2508.19201v1
- Date: Tue, 26 Aug 2025 17:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.926642
- Title: Understanding Tool-Integrated Reasoning
- Title(参考訳): ツール統合推論の理解
- Authors: Heng Lin, Zhongwen Xu,
- Abstract要約: ツール統合推論がLarge Language Models(LLM)をより有能にする理由を考察する。
LLMはPythonのコードインタープリタのようなツールと統合されているが、なぜこのパラダイムが効果的であるかを説明する原則的な理論が欠落している。
我々は、ツールが経験的かつ実現可能なサポートを厳格に拡張し、純粋テキストモデルの能力天井を壊すことを実証した。
- 参考スコア(独自算出の注目度): 9.235747697967984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study why Tool-Integrated Reasoning (TIR) makes Large Language Models (LLMs) more capable. While LLMs integrated with tools like Python code interpreters show great promise, a principled theory explaining why this paradigm is effective has been missing. This work provides the first formal proof that TIR fundamentally expands an LLM's capabilities. We demonstrate that tools enable a strict expansion of the model's empirical and feasible support, breaking the capability ceiling of pure-text models by unlocking problem-solving strategies that are otherwise impossible or intractably verbose. To guide model behavior without compromising training stability and performance, we also introduce Advantage Shaping Policy Optimization (ASPO), a novel algorithm that directly modifies the advantage function to guide the policy behavior. We conduct comprehensive experiments on challenging mathematical benchmarks, leveraging a Python interpreter as the external tool. Our results show that the TIR model decisively outperforms its pure-text counterpart on the pass@k metric. Crucially, this advantage is not confined to computationally-intensive problems but extends to those requiring significant abstract insight. We further identify the emergent cognitive patterns that illustrate how models learn to think with tools. Finally, we report improved tool usage behavior with early code invocation and much more interactive turns with ASPO. Overall, our work provides the first principled explanation for TIR's success, shifting the focus from the mere fact that tools work to why and how they enable more powerful reasoning.
- Abstract(参考訳): ツール統合推論(TIR)がLarge Language Models(LLM)をより有能にする理由を考察する。
LLMはPythonのコードインタープリタのようなツールと統合されているが、このパラダイムが有効である理由を説明する原則的な理論は欠落している。
この研究は、TIRがLLMの能力を根本的に拡張する最初の公式な証明を提供する。
我々は、ツールが実験的かつ実現可能なモデルサポートの厳格な拡張を可能にし、他の方法では不可能または難解な解決戦略を解き放つことによって、純粋テキストモデルの能力天井を壊すことを実証した。
トレーニングの安定性と性能を損なうことなく,モデル行動の指導を行うために,政策行動の指導に有利な関数を直接修正する新しいアルゴリズムであるAdvantage Shaping Policy Optimization (ASPO)を導入する。
我々は、Pythonインタプリタを外部ツールとして活用して、挑戦的な数学的ベンチマークに関する包括的な実験を行う。
以上の結果から,TIRモデルはpass@k測定値において,その純文に対して決定的に優れることがわかった。
重要なことに、この利点は計算集約的な問題に限らず、重要な抽象的な洞察を必要とする問題にまで及んでいる。
さらに、モデルがツールを使ってどのように考えるかを示す、創発的な認知パターンを特定します。
最後に、初期コード呼び出しによるツール使用状況の改善と、ASPOによるずっとインタラクティブなターンについて報告する。
全体として、私たちの研究は、TIRの成功に関する最初の原則的な説明を提供し、ツールが機能するという事実から、より強力な推論を可能にする方法へと焦点を移しました。
関連論文リスト
- AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning [17.086082843274003]
大言語モデル(LLM)は、強力な大共振モデル(LRM)へと進化する
Tool-Integrated Reasoning (TIR)は、外部ツールを組み込むことで、その機能をさらに拡張する。
ツールを適応的に選択する人間の能力に触発されて,強化学習フレームワークであるAutoTIRを紹介した。
論文 参考訳(メタデータ) (2025-07-29T14:12:28Z) - Distilling Tool Knowledge into Language Models via Back-Translated Traces [12.670632885715305]
本稿では,ツール知識を言語モデル(LLM)に純粋に抽出するための新しいパラダイムを提案する。
Translator Agentは、個々のツールコールの説明を生成し、Rephrase Agentはそれらを合体させて、流動的でグローバルに一貫性のある物語にする。
これらの合成トレース上で小さなオープンソースモデルを微調整することで、ツール知識と構造化推論パターンの両方を内部化できることを示す。
論文 参考訳(メタデータ) (2025-06-23T22:10:38Z) - ToolACE-DEV: Self-Improving Tool Learning via Decomposition and EVolution [77.86222359025011]
ツール学習のための自己改善フレームワークであるToolACE-DEVを提案する。
まず、ツール学習の目的を、基本的なツール作成とツール利用能力を高めるサブタスクに分解する。
次に、軽量モデルによる自己改善を可能にする自己進化パラダイムを導入し、高度なLCMへの依存を減らす。
論文 参考訳(メタデータ) (2025-05-12T12:48:30Z) - Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning [0.21845291030915975]
ARTISTはエージェント推論、強化学習、大規模言語モデルのツール統合を密に結合する統合フレームワークである。
モデルは、マルチターン推論チェーン内でいつ、どのように、どのツールを呼び出すかを、自律的に決定できる。
実験の結果、ARTISTは最先端のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-04-28T10:42:49Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Self-Training Large Language Models for Tool-Use Without Demonstrations [15.17750971071501]
大規模言語モデル (LLMs) は、実際の不正確さや計算ミスに悩まされがちである。
最近の研究は、これらの欠点を緩和するツールを備えたLCMを強化しているが、しばしば金の工具使用デモを必要とする。
本稿では,LLMが実演なしでツールの活用を学べるかどうかを検討する。
論文 参考訳(メタデータ) (2025-02-09T12:06:10Z) - CITI: Enhancing Tool Utilizing Ability in Large Language Models without Sacrificing General Performance [17.723293304671877]
コンポーネントベースツール活用能力注入法(CITI)を提案する。
異なるコンポーネントの勾配に基づく重要度スコアによると、CITIは微調整プロセスによって生じる能力衝突を軽減する。
実験結果から,本手法は様々な評価指標において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-20T04:06:28Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。