論文の概要: Bridging Online and Offline RL: Contextual Bandit Learning for Multi-Turn Code Generation
- arxiv url: http://arxiv.org/abs/2602.03806v1
- Date: Tue, 03 Feb 2026 18:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.629765
- Title: Bridging Online and Offline RL: Contextual Bandit Learning for Multi-Turn Code Generation
- Title(参考訳): オンラインおよびオフラインRLのブリッジ:マルチターンコード生成のためのコンテキスト帯域学習
- Authors: Ziru Chen, Dongdong Chen, Ruinan Jin, Yingbin Liang, Yujia Xie, Huan Sun,
- Abstract要約: マルチターンコード生成は、一段階回復可能なマルコフ決定プロセスとして定式化することができる。
Cobaltは、オンラインとオフラインのRLの利点を組み合わせた新しい方法である。
私たちの結果は、コード生成のような反復的な意思決定タスクのための有望なソリューションとして、Cobaltを実証しています。
- 参考スコア(独自算出の注目度): 60.14439536069839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there have been significant research interests in training large language models (LLMs) with reinforcement learning (RL) on real-world tasks, such as multi-turn code generation. While online RL tends to perform better than offline RL, its higher training cost and instability hinders wide adoption. In this paper, we build on the observation that multi-turn code generation can be formulated as a one-step recoverable Markov decision process and propose contextual bandit learning with offline trajectories (Cobalt), a new method that combines the benefits of online and offline RL. Cobalt first collects code generation trajectories using a reference LLM and divides them into partial trajectories as contextual prompts. Then, during online bandit learning, the LLM is trained to complete each partial trajectory prompt through single-step code generation. Cobalt outperforms two multi-turn online RL baselines based on GRPO and VeRPO, and substantially improves R1-Distill 8B and Qwen3 8B by up to 9.0 and 6.2 absolute Pass@1 scores on LiveCodeBench. Also, we analyze LLMs' in-context reward hacking behaviors and augment Cobalt training with perturbed trajectories to mitigate this issue. Overall, our results demonstrate Cobalt as a promising solution for iterative decision-making tasks like multi-turn code generation. Our code and data are available at https://github.com/OSU-NLP-Group/cobalt.
- Abstract(参考訳): 近年,マルチターンコード生成などの実世界のタスクにおいて,強化学習(RL)を用いた大規模言語モデル(LLM)のトレーニングに関心がある。
オンラインRLはオフラインRLよりもパフォーマンスがよい傾向にあるが、トレーニングコストと不安定性が高いため、広く採用されなくなる。
本稿では,マルチターンコード生成を一段階回復可能なマルコフ決定プロセスとして定式化し,オンラインとオフラインのRLの利点を組み合わせた新しい手法であるオフライントラジェクトリ(Cobalt)を用いた文脈的帯域学習を提案する。
Cobalt はまず参照 LLM を使用してコード生成トラジェクトリを収集し、それらを文脈的プロンプトとして部分的トラジェクトリに分割する。
そして、オンラインバンディット学習中に、LCMは、各部分軌道プロンプトを1ステップのコード生成で完了するように訓練される。
CobaltはGRPOとVeRPOに基づく2つのマルチターンオンラインRLベースラインを上回り、LiveCodeBenchのR1-Distill 8BとQwen3 8Bを9.0と6.2の絶対パス@1スコアで大幅に改善している。
また、LLMのコンテキスト内報酬ハッキング行動を分析し、この問題を緩和するために、摂動軌跡を用いたコバルト訓練を増強する。
全体として、私たちの結果は、Cobaltをマルチターンコード生成のような反復的な意思決定タスクのための有望なソリューションとして示しています。
私たちのコードとデータはhttps://github.com/OSU-NLP-Group/cobalt.comで公開されています。
関連論文リスト
- Transitive RL: Value Learning via Divide and Conquer [54.190627631246166]
Transive Reinforcement Learning (TRL) は、分割・分散パラダイムに基づく新しい価値学習アルゴリズムである。
モンテカルロ法とは異なり、TRLは動的プログラミングを実行するため、高分散に苦しむ。
論文 参考訳(メタデータ) (2025-10-26T03:32:31Z) - Scaling Offline RL via Efficient and Expressive Shortcut Models [13.050231036248338]
ノイズサンプリングプロセスの反復性のため, オフライン強化学習(RL)は依然として困難である。
本稿では、ショートカットモデルを利用してトレーニングと推論の両方をスケールする新しいオフラインRLアルゴリズムであるScalable Offline Reinforcement Learning (SORL)を紹介する。
我々は、SORLがオフラインのRLタスクにまたがって高い性能を達成し、テスト時間計算の増大とともに正のスケーリング挙動を示すことを示した。
論文 参考訳(メタデータ) (2025-05-28T20:59:22Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - RLTF: Reinforcement Learning from Unit Test Feedback [17.35361167578498]
Reinforcement Learning from Unit Test Feedback(リンク)は、新しいオンラインRLフレームワークである。
提案手法は,訓練中にリアルタイムにデータを生成し,高精度なフィードバック信号を用いて高品質なコードを生成する。
論文 参考訳(メタデータ) (2023-07-10T05:18:18Z) - Dual RL: Unification and New Methods for Reinforcement and Imitation
Learning [26.59374102005998]
我々はまず,共有構造を持つ2つのRLアプローチのインスタンスとして,最先端のオフラインRLとオフライン模倣学習(IL)アルゴリズムをいくつか導入した。
本稿では、任意のオフポリシーデータから模倣を学習し、ほぼ専門的な性能を得る新しい差別化手法であるReCOILを提案する。
オフラインRLでは、最近のオフラインRLメソッドXQLをデュアルフレームワークにフレーム化し、Gumbel回帰損失に対して代替的な選択肢を提供する新しい方法f-DVLを提案する。
論文 参考訳(メタデータ) (2023-02-16T20:10:06Z) - Bootstrapped Transformer for Offline Reinforcement Learning [31.43012728924881]
オフライン強化学習(RL)は、以前に収集した静的な軌跡データから実際の環境と相互作用することなく、ポリシーを学習することを目的としている。
最近の研究は、オフラインRLを汎用シーケンス生成問題として見ることによって、新しい視点を提供する。
本稿では,ブートストラップの概念を取り入れたBootstrapped Transformerという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:57:47Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。