Fugu-MT 論文翻訳(概要): RLTF: Reinforcement Learning from Unit Test Feedback

論文の概要: RLTF: Reinforcement Learning from Unit Test Feedback

arxiv url: http://arxiv.org/abs/2307.04349v1
Date: Mon, 10 Jul 2023 05:18:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-11 14:11:12.533743
Title: RLTF: Reinforcement Learning from Unit Test Feedback
Title（参考訳）: RLTF: ユニットテストフィードバックによる強化学習
Authors: Jiate Liu, Yiqin Zhu, Kaiwen Xiao, Qiang Fu, Xiao Han, Wei Yang, Deheng Ye
Abstract要約: Reinforcement Learning from Unit Test Feedback(リンク)は、新しいオンラインRLフレームワークである。提案手法は,訓練中にリアルタイムにデータを生成し,高精度なフィードバック信号を用いて高品質なコードを生成する。
参考スコア（独自算出の注目度）: 12.19799041924043
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The goal of program synthesis, or code generation, is to generate executable code based on given descriptions. Recently, there has been an increasing number of studies employing reinforcement learning (RL) to improve the performance of large language models (LLMs) for code. However, these RL methods have only used offline frameworks, limiting their exploration of new sample spaces. Additionally, current approaches that utilize unit test signals are rather simple, not accounting for specific error locations within the code. To address these issues, we proposed RLTF, i.e., Reinforcement Learning from Unit Test Feedback, a novel online RL framework with unit test feedback of multi-granularity for refining code LLMs. Our approach generates data in real-time during training and simultaneously utilizes fine-grained feedback signals to guide the model towards producing higher-quality code. Extensive experiments show that RLTF achieves state-of-the-art performance on the APPS and the MBPP benchmarks. Our code can be found at: https://github.com/Zyq-scut/RLTF.
Abstract（参考訳）: プログラム合成の目標は、与えられた記述に基づいて実行可能なコードを生成することである。近年,コードのための大規模言語モデル(LLM)の性能向上のため,強化学習(RL)を用いた研究が増えている。しかしながら、これらのRLメソッドはオフラインフレームワークのみを使用しており、新しいサンプルスペースの探索を制限している。さらに、ユニットテスト信号を使用する現在のアプローチは、コード内の特定のエラー位置を考慮せず、かなり単純です。これらの問題に対処するため、私たちは、コードLLMを精製するための多粒性の単体テストフィードバックを備えた新しいオンラインRLフレームワークであるReinforcement Learning from Unit Test Feedback(RLTF)を提案した。提案手法は,訓練中にリアルタイムにデータを生成し,高精度なフィードバック信号を用いて高品質なコードを生成する。 RLTFはAPPSとMBPPベンチマークで最先端のパフォーマンスを達成する。コードはhttps://github.com/zyq-scut/rltf.com/で確認できます。

関連論文リスト

CodeChemist: Functional Knowledge Transfer for Low-Resource Code Generation via Test-Time Scaling [63.08126845138046]
本稿では,高リソースから低リソースPLへの機能的知識伝達を可能にする,テスト時間スケーリングのフレームワークであるCodeChemistを紹介する。実験の結果,CodeChemistは既存のテストタイムスケーリング手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2025-10-01T04:33:53Z)
Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文参考訳（メタデータ） (2025-08-27T03:15:53Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。本研究は,それらの認知過程と強化学習手法について考察する。我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文参考訳（メタデータ） (2025-06-25T17:35:47Z)
CRScore++: Reinforcement Learning with Verifiable Tool and AI Feedback for Code Review [3.8128720045634044]
コードレビューコメント生成を改善するための強化学習(RL)には、構造化されていない出力を扱う必要がある。我々は、主観的フィードバックと検証可能な信号の両方を活用するRLフレームワークであるCRScore++を提案する。 CRScore++は教師モデルから教師付き微調整とRL批判を組み合わせることで、より弱い学生モデルを改善することを示す。
論文参考訳（メタデータ） (2025-05-30T22:58:35Z)
SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文参考訳（メタデータ） (2025-05-25T13:28:04Z)
Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文参考訳（メタデータ） (2025-05-16T16:59:14Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
Process Supervision-Guided Policy Optimization for Code Generation [15.943210767010045]
単体テストフィードバックによる強化学習(RL)は、大規模言語モデル(LLM)コード生成を強化しているが、完全なコード評価後にのみ提供される少ない報酬に依存している。本稿では,人間のコード修正を模倣したプロセス・リワード・モデル(PRM)を提案する。我々の実験結果は、特に長期シナリオにおいて、RL駆動型コード生成の強化におけるPRMの有効性を強調した。
論文参考訳（メタデータ） (2024-10-23T07:22:33Z)
Generating Unseen Code Tests In Infinitum [1.0674604700001968]
本稿では,プログラミングタスクやプログラミング言語にまたがって一般化するベンチマークのバリエーションを作成する手法を提案する。我々は、Pythonでテキストからコードを生成するタスクに対して、textitauto-regressionと呼ばれる1つのベンチマークを実装した。
論文参考訳（メタデータ） (2024-07-29T08:11:20Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Automatic Unit Test Data Generation and Actor-Critic Reinforcement Learning for Code Synthesis [16.88062487980405]
本稿では,関数シグネチャと関連する単体テストからなるデータを自動的に取得する手法を提案する。自動生成したトレーニングデータと組み合わせることで,事前学習された言語モデルの性能が向上することを示す。
論文参考訳（メタデータ） (2023-10-20T17:13:16Z)
Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文参考訳（メタデータ） (2023-07-05T16:58:39Z)
Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文参考訳（メタデータ） (2023-05-25T22:09:08Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)
Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。 ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文参考訳（メタデータ） (2020-09-14T19:11:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。