論文の概要: Teaching Language Models to Reason with Tools
- arxiv url: http://arxiv.org/abs/2510.20342v1
- Date: Thu, 23 Oct 2025 08:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.628855
- Title: Teaching Language Models to Reason with Tools
- Title(参考訳): ツールで推論する言語モデルを教える
- Authors: Chengpeng Li, Zhengyang Tang, Ziniu Li, Mingfeng Xue, Keqin Bao, Tian Ding, Ruoyu Sun, Benyou Wang, Xiang Wang, Junyang Lin, Dayiheng Liu,
- Abstract要約: emphHint-Engineeringは、推論経路内の最適点に様々なヒントを戦略的に注入する新しいデータ合成戦略である。
CoRTは効率を大幅に向上させ、32Bモデルのトークン使用量を約30%削減し、1.5Bモデルのトークン使用量を50%削減した。
- 参考スコア(独自算出の注目度): 73.21700643314917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) like OpenAI-o1 have shown impressive capabilities in natural language reasoning. However, these models frequently demonstrate inefficiencies or inaccuracies when tackling complex mathematical operations. While integrating computational tools such as Code Interpreters (CIs) offers a promising solution, it introduces a critical challenge: a conflict between the model's internal, probabilistic reasoning and the external, deterministic knowledge provided by the CI, which often leads models to unproductive deliberation. To overcome this, we introduce CoRT (Code-Optimized Reasoning Training), a post-training framework designed to teach LRMs to effectively utilize CIs. We propose \emph{Hint-Engineering}, a new data synthesis strategy that strategically injects diverse hints at optimal points within reasoning paths. This approach generates high-quality, code-integrated reasoning data specifically tailored to optimize LRM-CI interaction. Using this method, we have synthesized 30 high-quality samples to post-train models ranging from 1.5B to 32B parameters through supervised fine-tuning. CoRT further refines the multi-round interleaving of external CI usage and internal thinking by employing rejection sampling and reinforcement learning. Our experimental evaluations demonstrate CoRT's effectiveness, yielding absolute improvements of 4\% and 8\% on DeepSeek-R1-Distill-Qwen-32B and DeepSeek-R1-Distill-Qwen-1.5B, respectively, across five challenging mathematical reasoning datasets. Moreover, CoRT significantly enhances efficiency, reducing token usage by approximately 30\% for the 32B model and 50\% for the 1.5B model compared to pure natural language reasoning baselines. The models and code are available at: https://github.com/ChengpengLi1003/CoRT.
- Abstract(参考訳): OpenAI-o1のような大きな推論モデル(LRM)は、自然言語推論において印象的な能力を示している。
しかし、これらのモデルは複雑な数学的操作に取り組む際の非効率さや不正確さをしばしば示している。
Code Interpreters(CI)のような計算ツールの統合は、有望なソリューションを提供する一方で、モデルの内部的、確率的推論と、CIが提供する外部的、決定論的知識との間の対立という、モデルが非生産的な熟考へと導くという、重要な課題を導入します。
これを解決するために、私たちは、CIを効果的に活用するためのLEMを教えるために設計されたポストトレーニングフレームワークであるCoRT(Code-Optimized Reasoning Training)を紹介します。
推論経路内の最適点に様々なヒントを戦略的に注入する新しいデータ合成戦略である「emph{Hint-Engineering}」を提案する。
このアプローチは、LEM-CIインタラクションを最適化するために特別に調整された高品質なコード統合推論データを生成する。
本手法を用いて, 1.5B から 32B まで, 教師付き微調整により, 30 個の高品質サンプルを合成した。
CoRTは、リジェクションサンプリングと強化学習を利用することで、外部CI使用と内部思考のマルチラウンドインターリーブをさらに改善する。
実験により,CoRTの有効性が実証され,DeepSeek-R1-Distill-Qwen-32BとDeepSeek-R1-Distill-Qwen-1.5Bの絶対的な改善が得られた。
さらに、CoRTは効率を大幅に向上させ、純粋な自然言語推論ベースラインと比較して、32Bモデルで約30倍、1.5Bモデルで約50倍のトークン使用量を削減した。
モデルとコードは、https://github.com/ChengpengLi1003/CoRT.comで入手できる。
関連論文リスト
- AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent [80.83250816918861]
o3やDeepSeek-R1のようなLarge Reasoning Models (LRM)は、長いチェーン・オブ・シークレットを持つ自然言語推論において顕著な進歩を遂げている。
しかし、計算的に非効率であり、複雑な数学的操作を必要とする問題を解く際には精度に苦しむ。
本稿では,言語モデルの推論能力とコードインタプリタの計算精度をシームレスに統合するエージェントフレームワークであるAgentMathを紹介する。
論文 参考訳(メタデータ) (2025-12-23T19:57:49Z) - Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning [29.605396813225386]
マルチターン対話型タスクにおけるエージェントの訓練に強化学習をどのように利用できるかを示す。
本手法は,オープンウェイトモデルを用いた多ターン対話タスクのための有能エージェントの訓練のための実践的アプローチを提供する。
論文 参考訳(メタデータ) (2025-08-05T14:30:47Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - CoRT: Code-integrated Reasoning within Thinking [44.778344623138025]
o1やDeepSeek-R1のようなLarge Reasoning Models(LRM)は、長いチェーン・オブ・シント(CoT)による自然言語推論において顕著な進歩を示している。
Code Interpreter(CI)は、モデルの内部テキスト表現以外の外部知識を提供する。
本稿では,CIを効果的かつ効率的に活用するためのLRM教育のためのポストトレーニングフレームワークであるCoRTを紹介する。
論文 参考訳(メタデータ) (2025-06-11T14:59:02Z) - ReasoningV: Efficient Verilog Code Generation with Adaptive Hybrid Reasoning Model [7.798551697095774]
ReasoningVは、訓練された内在能力と動的推論適応を統合した、Verilogコード生成のための新しいモデルである。
ReasoningV-5Kは5,000個の機能検証済みインスタンスの高品質なデータセットで、PiraNetサンプルの多次元フィルタリングによる推論パスを生成する。
VerilogEval- humanに対するパス@1精度57.8%のReasoningVの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-04-20T10:16:59Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。