Fugu-MT 論文翻訳(概要): R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning

論文の概要: R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning

arxiv url: http://arxiv.org/abs/2505.21668v1
Date: Tue, 27 May 2025 18:47:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.237386
Title: R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning
Title（参考訳）: R1-Code-Interpreter: 教師付き強化学習によるコード推論のためのLLMのトレーニング
Authors: Yongchao Chen, Yueying Liu, Junwei Zhou, Yilun Hao, Jingquan Wang, Yang Zhang, Chuchu Fan,
Abstract要約: R1-Code-Interpreterは,マルチターン制御微調整(SFT)と強化学習(RL)によって訓練されたテキストのみの大規模言語モデル(LLM)の拡張である。 R1-Code-Interpreterはステップバイステップ推論中に複数のコードクエリを自律的に生成する。従来のRLの狭いドメインでの作業とは異なり、タスクの多様性と高価なコード実行のために、コードインタープリタのトレーニングがかなり難しいことが分かりました。
参考スコア（独自算出の注目度）: 14.208804782749793
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Despite advances in reasoning and planning of R1-like models, Large Language Models (LLMs) still struggle with tasks requiring precise computation, symbolic manipulation, optimization, and algorithmic reasoning, in which textual reasoning lacks the rigor of code execution. A key challenge is enabling LLMs to decide when to use textual reasoning versus code generation. While OpenAI trains models to invoke a Code Interpreter as needed, public research lacks guidance on aligning pre-trained LLMs to effectively leverage code and generalize across diverse tasks. We present R1-Code-Interpreter, an extension of a text-only LLM trained via multi-turn supervised fine-tuning (SFT) and reinforcement learning (RL) to autonomously generate multiple code queries during step-by-step reasoning. We curate 144 reasoning and planning tasks (107 for training, 37 for testing), each with over 200 diverse questions. We fine-tune Qwen-2.5 models (3B/7B/14B) using various SFT and RL strategies, investigating different answer formats, reasoning vs. non-reasoning models, cold vs. warm starts, GRPO vs. PPO, and masked vs. unmasked code outputs. Unlike prior RL work on narrow domains, we find that Code Interpreter training is significantly harder due to high task diversity and expensive code execution, highlighting the critical role of the SFT stage. Our final model, R1-CI-14B, improves average accuracy on the 37 test tasks from 44.0\% to 64.1\%, outperforming GPT-4o (text-only: 58.6\%) and approaching GPT-4o with Code Interpreter (70.9\%), with the emergent self-checking behavior via code generation. Datasets, Codes, and Models are available at https://github.com/yongchao98/R1-Code-Interpreter and https://huggingface.co/yongchao98.
Abstract（参考訳）: R1-likeモデルの推論と計画の進歩にもかかわらず、Large Language Models (LLMs) は正確な計算、記号操作、最適化、アルゴリズム推論を必要とするタスクに苦戦している。重要な課題は、LLMがテキスト推論とコード生成をいつ使用するかを判断できるようにすることである。 OpenAIは必要に応じてCode Interpreterを呼び出すようにモデルを訓練するが、パブリックリサーチでは、トレーニング済みのLLMをコーディネートして、コードを効果的に活用し、さまざまなタスクにまたがって一般化するためのガイダンスが欠如している。 R1-Code-Interpreterは、ステップバイステップ推論中に複数のコードクエリを自動生成するために、マルチターン教師付き微調整(SFT)と強化学習(RL)によって訓練されたテキストのみのLLMの拡張である。私たちは144の推論と計画タスク(トレーニングは107、テストは37)を、それぞれ200以上の多様な質問で評価します。我々は、様々なSFTとRL戦略を用いてQwen-2.5モデル(3B/7B/14B)を微調整し、異なる回答形式、推論対非推論モデル、コールド対ウォームスタート、GRPO対PPO、マスク対未マッチコード出力について検討する。狭いドメインでの以前のRLの作業とは異なり、タスクの多様性と高価なコード実行のために、コードインタープリタのトレーニングが著しく困難であることに気付き、SFTステージの重要な役割を強調します。我々の最終モデルであるR1-CI-14Bは、37のテストタスクの平均精度を44.0\%から64.1\%に改善し、GPT-4o(テキストのみ:58.6\%)を上回り、コードインタープリタ(70.9\%)でGPT-4oに近づき、コード生成による自己チェックを行う。 Datasets、Codes、Modelsはhttps://github.com/yongchao98/R1-Code-Interpreterとhttps://huggingface.co/yongchao98で入手できる。

関連論文リスト

Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
Zero-Shot Detection of LLM-Generated Code via Approximated Task Conditioning [8.571111167616165]
LLM(Large Language Model)が生成するコードは、セキュリティ、知的財産権、学術的完全性に影響を及ぼす。ゼロショットLLM生成符号検出における条件付き確率分布の役割について検討する。与えられたコードスニペットを生成するのに使用される元のタスクを近似する新しいゼロショット検出手法を提案する。
論文参考訳（メタデータ） (2025-06-06T13:23:37Z)
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文参考訳（メタデータ） (2025-03-12T16:26:39Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
Steering Large Language Models between Code Execution and Textual Reasoning [22.279107036500083]
テキスト推論は、数学、論理学、最適化、探索における課題を伴うタスクの解決に固有の制限がある。 OpenAI GPT Code InterpreterとAutoGenのようなマルチエージェントフレームワークは、コード生成と実行を統合するのに顕著な能力を示している。 LLMのコード/テキスト生成を良くし、顕著な改善を実現するための3つの方法を提案する。
論文参考訳（メタデータ） (2024-10-04T15:44:47Z)
Natural Is The Best: Model-Agnostic Code Simplification for Pre-trained Large Language Models [6.646510073473929]
本稿では,SlimCodeを提案する。SlimCodeは大規模言語モデルのための,モデルに依存しないコード単純化ソリューションである。 SlimCodeは、コード検索と要約におけるMRRおよびBLEUスコアの9.46%と5.15%の最先端技術を改善することができる。
論文参考訳（メタデータ） (2024-05-18T06:15:52Z)
Is Next Token Prediction Sufficient for GPT? Exploration on Code Logic Comprehension [18.919972400933393]
我々は、先進的な事前訓練タスク「Next Token Prediction+」を提案する。この事前トレーニングに続いて、コードドメイン事前トレーニングモデルであるCode LlamaとStarCoderの両方が、論理的に等価なコード選択タスクとコード補完タスクに大幅に改善されている。
論文参考訳（メタデータ） (2024-04-13T03:11:07Z)
Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。コードプロンプトは複数のLLMに対して高速に向上することがわかった。 GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文参考訳（メタデータ） (2024-01-18T15:32:24Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。