論文の概要: Automatic Unit Test Data Generation and Actor-Critic Reinforcement
Learning for Code Synthesis
- arxiv url: http://arxiv.org/abs/2310.13669v1
- Date: Fri, 20 Oct 2023 17:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 21:45:20.839903
- Title: Automatic Unit Test Data Generation and Actor-Critic Reinforcement
Learning for Code Synthesis
- Title(参考訳): コード合成のためのユニットテストデータ自動生成とアクタ-クリティック強化学習
- Authors: Philip John Gorinski, Matthieu Zimmer, Gerasimos Lampouras, Derrick
Goh Xin Deik, Ignacio Iacobacci
- Abstract要約: 本稿では,関数シグネチャと関連する単体テストからなるデータを自動的に取得する手法を提案する。
自動生成したトレーニングデータと組み合わせることで,事前学習された言語モデルの性能が向上することを示す。
- 参考スコア(独自算出の注目度): 16.88062487980405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of large pre-trained language models in the domain of Code
Synthesis has shown remarkable performance on various benchmarks, treating the
problem of Code Generation in a fashion similar to Natural Language Generation,
trained with a Language Modelling (LM) objective. In addition, the property of
programming language code being precisely evaluable with respect to its
semantics -- through the use of Unit Tests to check its functional correctness
-- lends itself to using Reinforcement Learning (RL) as a further training
paradigm. Previous work has shown that RL can be applied as such to improve
models' coding capabilities; however, such RL-based methods rely on a reward
signal based on defined Unit Tests, which are much harder to obtain compared to
the huge crawled code datasets used in LM objectives. In this work, we present
a novel approach to automatically obtain data consisting of function signatures
and associated Unit Tests, suitable for RL training of Code Synthesis models.
We also introduce a straightforward, simple yet effective Actor-Critic RL
training scheme and show that it, in conjunction with automatically generated
training data, leads to improvement of a pre-trained code language model's
performance by up to 9.9% improvement over the original underlying code
synthesis LM, and up to 4.3% over RL-based models trained with standard PPO or
CodeRL.
- Abstract(参考訳): コード合成の領域における大規模な事前学習言語モデルの出現は、様々なベンチマークにおいて顕著なパフォーマンスを示し、言語モデリング(LM)の目的によって訓練された自然言語生成に似た方法でコード生成の問題を扱います。
さらに、プログラミング言語のコードの性質はセマンティクスに関して正確に評価できる -- 機能的正当性をチェックするために単体テストを使用することによって -- さらなるトレーニングパラダイムとして強化学習(Reinforcement Learning, RL)を使用することに役立ちます。
従来の研究により、RLはモデルのコーディング能力を改善するために適用可能であることが示されているが、そのようなRLベースの手法は定義された単体テストに基づく報酬信号に依存しており、LMの目的に使用される巨大なクローされたコードデータセットに比べて取得がはるかに困難である。
本稿では,コード合成モデルのrlトレーニングに適した関数シグネチャと関連するユニットテストからなるデータを自動的に取得する新しい手法を提案する。
我々はまた、単純でシンプルで効果的なアクター・クリティカルなRLトレーニングスキームを導入し、自動生成されたトレーニングデータと合わせて、トレーニング済みの言語モデルの性能を9.9%向上させ、標準のPPOやCodeRLでトレーニングされたRLベースモデルよりも最大4.3%向上させることを示した。
関連論文リスト
- Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - Code Less, Align More: Efficient LLM Fine-tuning for Code Generation with Data Pruning [4.975728472540823]
各種クラスタリングとプルーニングのメトリクスを統合して、生成されたコードの正確性や機能を損なうことなく、トレーニングデータを選択的に削減する手法を提案する。
実験により,これらのプルーニング戦略は,必要な計算資源を削減するだけでなく,全体的な品質コード生成を向上することが示された。
論文 参考訳(メタデータ) (2024-07-06T10:30:43Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Reinforcement Learning from Automatic Feedback for High-Quality Unit
Test Generation [13.658632458850144]
大規模言語モデル(LLM)は、テストケースの自動生成を含むコード生成で人気を集めている。
LLMは、多くの場合、大量の公開コードでトレーニングされ、ベストプラクティスに従わないテストケースを含む。
RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T18:48:31Z) - Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。
強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。
この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-08-17T14:12:48Z) - RLTF: Reinforcement Learning from Unit Test Feedback [17.35361167578498]
Reinforcement Learning from Unit Test Feedback(リンク)は、新しいオンラインRLフレームワークである。
提案手法は,訓練中にリアルタイムにデータを生成し,高精度なフィードバック信号を用いて高品質なコードを生成する。
論文 参考訳(メタデータ) (2023-07-10T05:18:18Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。