論文の概要: CoRT: Code-integrated Reasoning within Thinking
- arxiv url: http://arxiv.org/abs/2506.09820v1
- Date: Wed, 11 Jun 2025 14:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.074582
- Title: CoRT: Code-integrated Reasoning within Thinking
- Title(参考訳): CoRT: 思考内でのコード統合推論
- Authors: Chengpeng Li, Zhengyang Tang, Ziniu Li, Mingfeng Xue, Keqin Bao, Tian Ding, Ruoyu Sun, Benyou Wang, Xiang Wang, Junyang Lin, Dayiheng Liu,
- Abstract要約: o1やDeepSeek-R1のようなLarge Reasoning Models(LRM)は、長いチェーン・オブ・シント(CoT)による自然言語推論において顕著な進歩を示している。
Code Interpreter(CI)は、モデルの内部テキスト表現以外の外部知識を提供する。
本稿では,CIを効果的かつ効率的に活用するためのLRM教育のためのポストトレーニングフレームワークであるCoRTを紹介する。
- 参考スコア(独自算出の注目度): 44.778344623138025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) like o1 and DeepSeek-R1 have shown remarkable progress in natural language reasoning with long chain-of-thought (CoT), yet they remain inefficient or inaccurate when handling complex mathematical operations. Addressing these limitations through computational tools (e.g., computation libraries and symbolic solvers) is promising, but it introduces a technical challenge: Code Interpreter (CI) brings external knowledge beyond the model's internal text representations, thus the direct combination is not efficient. This paper introduces CoRT, a post-training framework for teaching LRMs to leverage CI effectively and efficiently. As a first step, we address the data scarcity issue by synthesizing code-integrated reasoning data through Hint-Engineering, which strategically inserts different hints at appropriate positions to optimize LRM-CI interaction. We manually create 30 high-quality samples, upon which we post-train models ranging from 1.5B to 32B parameters, with supervised fine-tuning, rejection fine-tuning and reinforcement learning. Our experimental results demonstrate that Hint-Engineering models achieve 4\% and 8\% absolute improvements on DeepSeek-R1-Distill-Qwen-32B and DeepSeek-R1-Distill-Qwen-1.5B respectively, across five challenging mathematical reasoning datasets. Furthermore, Hint-Engineering models use about 30\% fewer tokens for the 32B model and 50\% fewer tokens for the 1.5B model compared with the natural language models. The models and code are available at https://github.com/ChengpengLi1003/CoRT.
- Abstract(参考訳): o1やDeepSeek-R1のようなLarge Reasoning Models(LRM)は、長いチェーン・オブ・シント(CoT)を用いた自然言語推論において顕著な進歩を示しているが、複雑な数学的操作を扱う際には非効率または不正確なままである。
計算ツール(計算ライブラリやシンボリック・ソルバなど)を通じてこれらの制限に対処することは有望であるが、技術的課題を提起している。 Code Interpreter (CI)は、モデルの内部テキスト表現以外の外部知識をもたらすため、直接的な組み合わせは効率的ではない。
本稿では,CIを効果的かつ効率的に活用するためのLRM教育のためのポストトレーニングフレームワークであるCoRTを紹介する。
最初のステップとして、コード統合推論データをHint-Engineeringを通じて合成することで、データ不足問題に対処する。
30の高品質なサンプルを手作業で作成し、1.5Bから32Bパラメータのトレーニング後モデルを作成し、微調整、拒否微調整、強化学習を監督する。
実験の結果,Hint-Engineering モデルでは,DeepSeek-R1-Distill-Qwen-32B とDeepSeek-R1-Distill-Qwen-1.5B の4倍,8倍の絶対改善が達成された。
さらに、Hint-Engineeringモデルでは、32Bモデルではトークンが約30%少なく、1.5Bモデルでは自然言語モデルに比べてトークンが約50%少ない。
モデルとコードはhttps://github.com/ChengpengLi1003/CoRTで公開されている。
関連論文リスト
- TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [75.81611837629764]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - ReasoningV: Efficient Verilog Code Generation with Adaptive Hybrid Reasoning Model [7.798551697095774]
ReasoningVは、訓練された内在能力と動的推論適応を統合した、Verilogコード生成のための新しいモデルである。
ReasoningV-5Kは5,000個の機能検証済みインスタンスの高品質なデータセットで、PiraNetサンプルの多次元フィルタリングによる推論パスを生成する。
VerilogEval- humanに対するパス@1精度57.8%のReasoningVの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-04-20T10:16:59Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。