論文の概要: Teaching Language Models to Think in Code
- arxiv url: http://arxiv.org/abs/2605.07237v2
- Date: Mon, 11 May 2026 02:57:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 19:24:01.346717
- Title: Teaching Language Models to Think in Code
- Title(参考訳): コードで考えるための言語モデルを教える
- Authors: Hyeon Hwang, Jiwoo Lee, Jaewoo Kang,
- Abstract要約: 我々は、コード自体がNLによって起動されるツールとしてではなく、推論として機能するフレームワークであるThinking in Code(Thinking in Code)を提案する。
教師モデルから12.2kのコード中心軌跡を抽出し、教師による微調整と強化学習によりThinC-1.7BとThinC-4Bを訓練する。
- 参考スコア(独自算出の注目度): 18.87981500987763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-integrated reasoning (TIR) has emerged as a dominant paradigm for mathematical problem solving in language models, combining natural language (NL) reasoning with code execution. However, this interleaved setup has three key limitations: code often acts as a post-hoc verifier, intermediate NL computations are error-prone, and NL and code play overlapping rather than clearly distinct roles. We propose ThinC (Thinking in Code), a framework in which code itself serves as the reasoner rather than as a tool invoked by NL. A ThinC trajectory begins with a brief NL planning step, after which all reasoning unfolds through code blocks connected only by their execution outputs. We distill 12.2k code-centric trajectories from a teacher model and train ThinC-1.7B and ThinC-4B with supervised fine-tuning followed by reinforcement learning. ThinC-4B consistently outperforms every TIR baseline on five competition-level math benchmarks and even surpasses the much larger Qwen3-235B-A22B-Thinking. Further analysis shows that ThinC reasons through code: 99.2% of its final answers are grounded in interpreter output, and the model recovers reliably from code execution failures without intermediate NL reasoning. Our code and models will be released soon.
- Abstract(参考訳): ツール統合推論(TIR)は、自然言語推論(NL)とコード実行を組み合わせた言語モデルにおける数学的問題解決の主流パラダイムとして登場した。
コードはしばしばポストホック検証として機能し、中間的なNL計算はエラーを起こし、NLとコードは明らかに異なる役割ではなく重なり合う。
我々は、コード自体がNLによって起動されるツールとしてではなく、推論として機能するフレームワークであるThinking in Code(Thinking in Code)を提案する。
ThinCトラジェクトリは、簡単なNL計画ステップから始まり、その後、すべての推論が実行出力によってのみ接続されるコードブロックを通して展開される。
教師モデルから12.2kのコード中心軌跡を抽出し、教師による微調整と強化学習によりThinC-1.7BとThinC-4Bを訓練する。
ThinC-4Bは5つの競合レベルのベンチマークでTIRベースラインを一貫して上回り、さらに大きなQwen3-235B-A22B-Thinkingを上回っている。
99.2%はインタプリタの出力に基づいており、そのモデルは中間的なNL推論なしでコード実行失敗から確実に回復する。
コードとモデルも間もなくリリースされる予定です。
関連論文リスト
- Generating Verifiable CoT from Execution-Traces [6.634229408414094]
チェーン・オブ・ソート(Chain-of-Thought)のプロンプトは有望だが、現在の総合的なトレーニングデータは重大な弱点に悩まされている。
プログラム実行トレースにCoT生成を直接接地することで、この問題に対処する。
この実行基盤のアプローチは、プログラムが真に計算したものを反映するすべての推論ステップを保証する。
論文 参考訳(メタデータ) (2025-11-28T07:43:43Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - CodeMind: Evaluating Large Language Models for Code Reasoning [6.819757372634151]
大規模言語モデル(LLM)は、プログラミングタスクの自動化に広く使われている。
本稿では,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。
論文 参考訳(メタデータ) (2024-02-15T02:24:46Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。