論文の概要: CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2207.01780v1
- Date: Tue, 5 Jul 2022 02:42:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 13:51:02.630875
- Title: CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning
- Title(参考訳): CodeRL:事前学習モデルによるコード生成と深層強化学習
- Authors: Hung Le, Yue Wang, Akhilesh Deepak Gotmare, Silvio Savarese, Steven
C.H. Hoi
- Abstract要約: CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
- 参考スコア(独自算出の注目度): 92.36705236706678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Program synthesis or code generation aims to generate a program that
satisfies a problem specification. Recent approaches using large-scale
pretrained language models (LMs) have shown promising results, yet they have
some critical limitations. In particular, they often follow a standard
supervised fine-tuning procedure to train a code generation model only from the
pairs of natural-language problem descriptions and ground-truth programs. Such
paradigm largely ignores some important but potentially useful signals in the
problem specification such as unit tests, which thus often results in poor
performance when solving complex unseen coding tasks. To address the
limitations, we propose "CodeRL", a new framework for program synthesis tasks
through pretrained LMs and deep reinforcement learning (RL). Specifically,
during training, we treat the code-generating LM as an actor network, and
introduce a critic network that is trained to predict the functional
correctness of generated programs and provide dense feedback signals to the
actor. During inference, we introduce a new generation procedure with a
critical sampling strategy that allows a model to automatically regenerate
programs based on feedback from example unit tests and critic scores. For the
model backbones, we extended the encoder-decoder architecture of CodeT5 with
enhanced learning objectives, larger model sizes, and better pretraining data.
Our method not only achieves new SOTA results on the challenging APPS
benchmark, but also shows strong zero-shot transfer capability with new SOTA
results on the simpler MBPP benchmark.
- Abstract(参考訳): プログラム合成またはコード生成は、問題仕様を満たすプログラムを生成することを目的としている。
大規模事前訓練言語モデル(LM)を用いた最近のアプローチは有望な結果を示しているが、いくつかの限界がある。
特に、彼らはしばしば、自然言語問題記述と接地真実プログラムのペアからのみコード生成モデルを訓練する標準的な微調整手順に従う。
このようなパラダイムは、ユニットテストのような問題仕様において、重要なけれども潜在的に有用なシグナルを無視しているため、複雑な目に見えないコーディングタスクを解決する場合、パフォーマンスが低下することが多い。
この制限に対処するために,事前学習されたLMと深層強化学習(RL)によるプログラム合成タスクのための新しいフレームワークであるCodeRLを提案する。
具体的には、トレーニング中にコード生成LMをアクターネットワークとして扱い、生成されたプログラムの機能的正しさを予測し、アクターに密着したフィードバック信号を提供するよう訓練された批評家ネットワークを導入する。
推論中,本手法では,ユニットテストや批判スコアからのフィードバックに基づいて,モデルが自動的にプログラムを再生成することを可能にする,批判的サンプリング戦略を備えた新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標の強化,モデルサイズの拡大,事前学習データの改善を行った。
提案手法は,APPSベンチマークにおいて新しいSOTA結果を得るだけでなく,より単純なMBPPベンチマークにおいて,新たなSOTA結果とともに強力なゼロショット転送能力を示す。
関連論文リスト
- The Graph's Apprentice: Teaching an LLM Low Level Knowledge for Circuit Quality Estimation [34.37154877681809]
本研究は,HDLコードから直接回路品質を推定するための予測ネットワークを用いて,大規模言語モデル(LLM)を拡張することを提案する。
性能を向上させるために、Look-Up Table (LUT)グラフでトレーニングされたグラフニューラルネットワーク(GNN)の埋め込みを使用してモデルを正規化する。
提案手法は,既存のベンチマークOpenABCDにおけるRTLレベルの推定手法と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-30T04:20:10Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation [1.335664823620186]
大規模言語モデル(LLM)は最近、ソフトウェア工学のタスクに多くの応用を進歩させた。
CoT-SelfEvolveは、自己修正プロセスを通じて、反復的かつ自動的にコードを洗練する。
論文 参考訳(メタデータ) (2024-08-28T09:19:09Z) - Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。
最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。
プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:35:00Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Automatic Unit Test Data Generation and Actor-Critic Reinforcement
Learning for Code Synthesis [16.88062487980405]
本稿では,関数シグネチャと関連する単体テストからなるデータを自動的に取得する手法を提案する。
自動生成したトレーニングデータと組み合わせることで,事前学習された言語モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T17:13:16Z) - Enhancing Automated Program Repair through Fine-tuning and Prompt
Engineering [2.3826139428423576]
シーケンス・ツー・シーケンスのモデルは、十分に大規模なデータセットでトレーニングされた時に、誤ったプログラムを正しいプログラムに変換するために使われてきた。
いくつかの最近の研究は、コードレビューがプログラムの修復をさらに改善できるという強い実証的な証拠を示した。
PLとNLの本質的な知識が,プログラムの自動修復の改善に有効かどうかを検討する。
論文 参考訳(メタデータ) (2023-04-16T17:29:51Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。