論文の概要: Efficient Post-training of LLMs for Code Generation With Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.28409v1
- Date: Wed, 27 May 2026 12:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.05238
- Title: Efficient Post-training of LLMs for Code Generation With Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習によるコード生成のためのLLMの効率的な後学習
- Authors: Mingze Wu, Abhinav Anand, Shweta Verma, Mira Mezini,
- Abstract要約: オンライン強化学習(RL)を用いたポストトレーニングは、コード生成モデルを含むLLMにとって重要なトレーニングステップである。
コード生成のためのオンラインRLには、生成した出力の推測と検証が含まれており、かなりの時間とリソースを要する可能性がある。
本稿では,既存のコードデータセットを利用したコード生成モデルへのオフラインRLの適用について検討する。
- 参考スコア(独自算出の注目度): 5.1981024469718315
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Post-training using online reinforcement learning (RL) is an important training step for LLMs, including code-generating models. However, online RL for code generation involves LLM inference and verification of the generated output, which can take considerable time and resources. In this paper, we explore the application of offline RL to code-generating models by leveraging existing code datasets. Our experiments demonstrate that offline RL is an effective training strategy for improving LLM performance. We show that offline RL can be especially beneficial for small LLMs and challenging coding problems.
- Abstract(参考訳): オンライン強化学習(RL)を用いたポストトレーニングは、コード生成モデルを含むLLMにとって重要なトレーニングステップである。
しかし、コード生成のためのオンラインRLには、LLM推論と生成した出力の検証が含まれており、かなりの時間とリソースを要する可能性がある。
本稿では,既存のコードデータセットを利用したコード生成モデルへのオフラインRLの適用について検討する。
実験の結果,オフラインRLはLLMの性能向上のための効果的なトレーニング戦略であることがわかった。
オフラインのRLは、小型のLLMやコーディング問題に特に有用であることを示す。
関連論文リスト
- Memory-Based Advantage Shaping for LLM-Guided Reinforcement Learning [18.215893951726166]
スパースや遅延した報酬のある環境では、強化学習は高いサンプル複雑さを引き起こす。
この制限は、大規模言語モデル(LLM)をサブゴール発見や軌道誘導に使う動機となった。
LLMガイダンスとエージェント自身のロールアウトの成功の両方から,サブゴールとトラジェクトリを符号化したメモリグラフを構築することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2026-02-20T01:44:35Z) - Bridging Online and Offline RL: Contextual Bandit Learning for Multi-Turn Code Generation [60.14439536069839]
マルチターンコード生成は、一段階回復可能なマルコフ決定プロセスとして定式化することができる。
Cobaltは、オンラインとオフラインのRLの利点を組み合わせた新しい方法である。
私たちの結果は、コード生成のような反復的な意思決定タスクのための有望なソリューションとして、Cobaltを実証しています。
論文 参考訳(メタデータ) (2026-02-03T18:08:41Z) - Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle [66.80133103857703]
強化学習(RL)は、大規模言語モデル(LLM)の推論とアライメント性能を著しく向上させた。
本調査は, RL と LLM の交差点における最新の発展とフロンティアの動向を研究者や実践者に提示することを目的としている。
論文 参考訳(メタデータ) (2025-09-20T13:11:28Z) - Large Language Model-enhanced Reinforcement Learning for Low-Altitude Economy Networking [71.83640290222928]
Low-Altitude Economic Networking (LAENet)は、1000m以下の多様な飛行アプリケーションをサポートすることを目的としている。
複雑な意思決定、資源の制約、環境の不確実性は、LEENetの開発に重大な課題をもたらす。
論文 参考訳(メタデータ) (2025-05-27T11:25:42Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving [41.87011820577736]
本稿では、政治強化学習エージェントを学習するための新しいフレームワークであるRAPIDを紹介する。
LLMベースの運転エージェントで合成されたデータとオンライン適応を用いて、警察のRLエージェントを専門に訓練する。
異なるタスクへの適応性を維持しながら、LLM知識の堅牢性を低減する。
論文 参考訳(メタデータ) (2024-10-16T13:43:00Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Reflect-RL: Two-Player Online RL Fine-Tuning for LMs [38.5495318990769]
オンライン強化学習(RL)と教師付き微調整(SFT)を用いた微調整言語モデル(LM)システムであるReflect-RLを提案する。
GPT-2 XL 1.56BはReflect-RLで微調整され、Mistral 7Bのようなより大きなオープンソースLMよりも優れていた。
論文 参考訳(メタデータ) (2024-02-20T01:04:21Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Learning to Generate Better Than Your LLM [16.74454360961681]
強化学習は大規模言語モデルを微調整するための強力なパラダイムとして登場した。
我々は、動的ブラックボックスガイドLLMと対話できるようにRLアルゴリズムを拡張した。
我々はRLアルゴリズムが教師あり学習よりも高い性能を実現することを示す。
論文 参考訳(メタデータ) (2023-06-20T18:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。