論文の概要: Learning How to Use Tools, Not Just When: Pattern-Aware Tool-Integrated Reasoning
- arxiv url: http://arxiv.org/abs/2509.23292v1
- Date: Sat, 27 Sep 2025 13:10:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.144355
- Title: Learning How to Use Tools, Not Just When: Pattern-Aware Tool-Integrated Reasoning
- Title(参考訳): ツールの使い方を学ぶ - パターン認識ツールによる推論
- Authors: Ningning Xu, Yuxuan Jiang, Shubhashis Roy Dipta,
- Abstract要約: 我々は、直接計算にコードを使用する計算機パターンと、問題をプログラムとしてエンコードするアルゴリズムパターンの2つの共通パターンを識別する。
まず、両方のパターンからコードコンピテンスを構築し、パターン選択と教師の好みを一致させる2段階のフレームワークを提案する。
難解な数学データセット全体にわたって、パターン認識手法はコードの使用率と精度を大幅に改善する。
- 参考スコア(独自算出の注目度): 3.834488571137543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-integrated reasoning (TIR) has become a key approach for improving large reasoning models (LRMs) on complex problems. Prior work has mainly studied when to invoke tools, while overlooking how tools are applied. We identify two common patterns: a calculator pattern that uses code for direct computation, and an algorithmic pattern that encodes problems as programs. Misaligned choices often cause failures even when reasoning is sound. We propose a two-stage framework that first builds code competence from both patterns and then aligns pattern selection with teacher preferences. Across challenging math datasets, our pattern-aware method substantially improves both code usage and accuracy, for instance raising Code@1 on MATH500 from 64.0% to 70.5% and on AIME24 from 26.7% to 50.0%. These gains highlight the effectiveness of a pattern-aware approach for tool-integrated reasoning.
- Abstract(参考訳): ツール統合推論(TIR)は、複雑な問題において大きな推論モデル(LRM)を改善するための重要なアプローチとなっている。
これまでの研究は主にツールをいつ呼び出すかを研究してきたが、ツールの適用方法を見下ろしていた。
我々は、直接計算にコードを使用する計算機パターンと、問題をプログラムとしてエンコードするアルゴリズムパターンの2つの共通パターンを識別する。
ミスアライメントの選択は、推論が健全な場合でも、しばしば失敗を引き起こす。
まず、両方のパターンからコードコンピテンスを構築し、パターン選択と教師の好みを一致させる2段階のフレームワークを提案する。
例えば、MATH500でCode@1を64.0%から70.5%に、AIME24で26.7%から50.0%に引き上げます。
これらの成果は、ツール統合推論におけるパターン認識アプローチの有効性を強調している。
関連論文リスト
- Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - Agentic-R1: Distilled Dual-Strategy Reasoning [58.73951532294446]
現在のロングチェーン・オブ・ソート(ロングCoT)モデルは数学的推論において優れているが、遅くてエラーを起こしやすい自然言語トレースに依存している。
複数の教師の補完的推論戦略を統合された学生モデルに蒸留する微調整フレームワークであるDualDistillを導入する。
本手法は,計算集約型ベンチマークと標準ベンチマークの両方を含むタスクの精度を向上する。
論文 参考訳(メタデータ) (2025-07-08T06:35:16Z) - ReTool: Reinforcement Learning for Strategic Tool Use in LLMs [27.07998056454784]
ReToolは、ツール統合学習によるロングフォーム推論を強化する。
モデルは400のトレーニングステップで67%の精度を達成する。
注目すべきは、ReTool-32Bが72.5%の精度で設定できることだ。
論文 参考訳(メタデータ) (2025-04-15T18:10:22Z) - Multi-tool Integration Application for Math Reasoning Using Large Language Model [1.4582633500696451]
本稿では,数学的推論のための新しいマルチツールアプリケーションフレームワークを提案する。
大規模言語モデル(LLM)と複数の外部ツールの協調効果を利用して、より包括的で正確な数学的推論を実現することを目的としている。
論文 参考訳(メタデータ) (2024-08-22T06:27:10Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。