論文の概要: Learning How to Use Tools, Not Just When: Pattern-Aware Tool-Integrated Reasoning
- arxiv url: http://arxiv.org/abs/2509.23292v1
- Date: Sat, 27 Sep 2025 13:10:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.144355
- Title: Learning How to Use Tools, Not Just When: Pattern-Aware Tool-Integrated Reasoning
- Title(参考訳): ツールの使い方を学ぶ - パターン認識ツールによる推論
- Authors: Ningning Xu, Yuxuan Jiang, Shubhashis Roy Dipta,
- Abstract要約: 我々は、直接計算にコードを使用する計算機パターンと、問題をプログラムとしてエンコードするアルゴリズムパターンの2つの共通パターンを識別する。
まず、両方のパターンからコードコンピテンスを構築し、パターン選択と教師の好みを一致させる2段階のフレームワークを提案する。
難解な数学データセット全体にわたって、パターン認識手法はコードの使用率と精度を大幅に改善する。
- 参考スコア(独自算出の注目度): 3.834488571137543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-integrated reasoning (TIR) has become a key approach for improving large reasoning models (LRMs) on complex problems. Prior work has mainly studied when to invoke tools, while overlooking how tools are applied. We identify two common patterns: a calculator pattern that uses code for direct computation, and an algorithmic pattern that encodes problems as programs. Misaligned choices often cause failures even when reasoning is sound. We propose a two-stage framework that first builds code competence from both patterns and then aligns pattern selection with teacher preferences. Across challenging math datasets, our pattern-aware method substantially improves both code usage and accuracy, for instance raising Code@1 on MATH500 from 64.0% to 70.5% and on AIME24 from 26.7% to 50.0%. These gains highlight the effectiveness of a pattern-aware approach for tool-integrated reasoning.
- Abstract(参考訳): ツール統合推論(TIR)は、複雑な問題において大きな推論モデル(LRM)を改善するための重要なアプローチとなっている。
これまでの研究は主にツールをいつ呼び出すかを研究してきたが、ツールの適用方法を見下ろしていた。
我々は、直接計算にコードを使用する計算機パターンと、問題をプログラムとしてエンコードするアルゴリズムパターンの2つの共通パターンを識別する。
ミスアライメントの選択は、推論が健全な場合でも、しばしば失敗を引き起こす。
まず、両方のパターンからコードコンピテンスを構築し、パターン選択と教師の好みを一致させる2段階のフレームワークを提案する。
例えば、MATH500でCode@1を64.0%から70.5%に、AIME24で26.7%から50.0%に引き上げます。
これらの成果は、ツール統合推論におけるパターン認識アプローチの有効性を強調している。
関連論文リスト
- From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models [18.072434766310458]
ツール拡張言語モデル(TaLM)は、パラメトリック能力を超えた問題を解決するために外部ツールを呼び出すことができる。
ツールが正しく選択され、実行されたとしても、TaLMは推論の代用としてツール出力を扱います。
論文 参考訳(メタデータ) (2025-11-14T02:21:34Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - Agentic-R1: Distilled Dual-Strategy Reasoning [58.73951532294446]
現在のロングチェーン・オブ・ソート(ロングCoT)モデルは数学的推論において優れているが、遅くてエラーを起こしやすい自然言語トレースに依存している。
複数の教師の補完的推論戦略を統合された学生モデルに蒸留する微調整フレームワークであるDualDistillを導入する。
本手法は,計算集約型ベンチマークと標準ベンチマークの両方を含むタスクの精度を向上する。
論文 参考訳(メタデータ) (2025-07-08T06:35:16Z) - ReTool: Reinforcement Learning for Strategic Tool Use in LLMs [27.07998056454784]
ReToolは、ツール統合学習によるロングフォーム推論を強化する。
モデルは400のトレーニングステップで67%の精度を達成する。
注目すべきは、ReTool-32Bが72.5%の精度で設定できることだ。
論文 参考訳(メタデータ) (2025-04-15T18:10:22Z) - ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。
モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。
提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文 参考訳(メタデータ) (2024-10-24T18:02:37Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Multi-tool Integration Application for Math Reasoning Using Large Language Model [1.4582633500696451]
本稿では,数学的推論のための新しいマルチツールアプリケーションフレームワークを提案する。
大規模言語モデル(LLM)と複数の外部ツールの協調効果を利用して、より包括的で正確な数学的推論を実現することを目的としている。
論文 参考訳(メタデータ) (2024-08-22T06:27:10Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。