論文の概要: Code-enabled language models can outperform reasoning models on diverse tasks
- arxiv url: http://arxiv.org/abs/2510.20909v1
- Date: Thu, 23 Oct 2025 18:04:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.292538
- Title: Code-enabled language models can outperform reasoning models on diverse tasks
- Title(参考訳): コード対応言語モデルは多様なタスクにおける推論モデルより優れている
- Authors: Cedegao E. Zhang, Cédric Colas, Gabriel Poesia, Joshua B. Tenenbaum, Jacob Andreas,
- Abstract要約: 標準命令LMは, 微調整をせずに, 強力な推論器となりうることを示す。
これはCodeAdaptによって実現され、LMは多段階的なコード実行と自然言語推論をインターリーブする。
CodeAdaptは、平均8タスクで、3つのLMが対応するRMを上回ります。
- 参考スコア(独自算出の注目度): 86.29363856881399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning models (RMs), language models (LMs) trained with reinforcement learning to produce long-form natural language reasoning, have been remarkably successful, but they still require large amounts of computation and data to train, and can be slow and expensive to run. In this paper, we show that standard instruct LMs can already be elicited to be strong reasoners at a level comparable to or even surpassing their corresponding RMs (e.g., DeepSeek V3 vs R1) without finetuning, across diverse domains from instruction following and creative generation to mathematical reasoning. This is achieved by CodeAdapt, our simple recipe that combines the CodeAct framework, where LMs interleave natural language reasoning with code execution in a multi-step fashion, with few-shot bootstrap in-context learning from as few as five training problems. Analyzing four matched pairs of LMs and RMs, we find that CodeAdapt enables three LMs to outperform the corresponding RMs on average over eight tasks (up to 22.9%) while being 10-81% more token efficient, and delivers superior performance on six tasks when averaged over the four models (up to 35.7%). Furthermore, the code-augmented reasoning traces display rich and varied problem-solving strategies. Our findings support that (1) CodeAdapt-style learning and reasoning may be robust and domain general and (2) code-enabled LMs are cognitively grounded and powerful systems, potentially providing a strong foundation for in-weight reinforcement learning.
- Abstract(参考訳): 推論モデル(RM)や言語モデル(LM)は、長期の自然言語推論を生成するために強化学習で訓練され、非常に成功したが、訓練には大量の計算とデータが必要であり、実行には遅くて費用がかかる。
本稿では,標準的な命令型LMを,命令の追従や創造的生成から数学的推論に至るまで,様々な領域にわたって微調整なしで,対応するRM(例えばDeepSeek V3 vs R1)に匹敵する,あるいはそれを超えるレベルの強い推論子にすることができることを示す。
これはCodeActフレームワークを組み合わせたシンプルなレシピであるCodeAdaptによって実現され、LMは自然言語推論とコード実行をマルチステップでインターリーブする。
一致する4組のLMとRMを解析した結果、CodeAdaptは平均8つのタスク(最大22.9%)で3つのLMを上回り、トークン効率は10-81%向上し、4つのモデル(最大35.7%)で6つのタスクで優れたパフォーマンスが得られることがわかった。
さらに、コード拡張された推論トレースは、リッチで多様な問題解決戦略を示す。
その結果,(1)CodeAdaptスタイルの学習と推論は堅牢であり,(2)コード可能なLMは認知的基盤と強力なシステムであり,強度強化学習の強力な基盤となる可能性が示唆された。
関連論文リスト
- Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning [23.795932850992816]
R1-Code-Interpreterは,マルチターン制御微調整(SFT)と強化学習(RL)によって訓練されたテキストのみの大規模言語モデル(LLM)の拡張である。
144種類の多種多様な推論・計画タスクにまたがる汎用コードインタープリタのトレーニングは,タスクの不均一性や有効サンプルの不足による重大な課題を呈している。
最終モデルであるR1-CI-14Bは、37のテストタスクの平均精度を44.1%から72.4%に改善し、テキストのみのGPT-4o (58.6%) と GPT-4o with Code Interpreter (70.9%) を上回りました。
論文 参考訳(メタデータ) (2025-05-27T18:47:33Z) - CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models [15.560280546809457]
CoT(Chain-of- Thought)推論は、複雑なタスクにおける大規模言語モデルのLLM(LLM)パフォーマンスを高める。
提案するCoT-RAGは3つの重要な設計を持つ新しい推論フレームワークである。
精度は4.0%から44.3%に向上した。
論文 参考訳(メタデータ) (2025-04-18T07:55:09Z) - MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning [55.82649731348012]
MMK12データセットとMM-EUREKAを7B,32Bパラメータで導入する。
前者は、人間の検証された答えと解法を含む多様な知識領域を特徴とする高品質なマルチモーダル数学推論データセットである。
後者は,オンラインフィルタリングを利用したルールベース強化学習と,トレーニング安定性を高めるための2段階トレーニング戦略を用いたマルチモーダルモデルである。
論文 参考訳(メタデータ) (2025-03-10T14:23:12Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Language Models of Code are Few-Shot Commonsense Learners [106.1531522893209]
自然言語入力が与えられた場合、目標はイベントや推論グラフなどのグラフを生成することだ。
既存のアプローチは、出力グラフをノードとエッジのフラットリストとしてシリアライズする。
コード生成タスクとして構造化コモンセンス推論タスクをフレーム化する場合、事前学習されたコードLMは自然言語のLMよりも構造化コモンセンス推論タスクの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-10-13T16:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。