Fugu-MT 論文翻訳(概要): CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning

論文の概要: CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2207.01780v1
Date: Tue, 5 Jul 2022 02:42:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-06 13:51:02.630875
Title: CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning
Title（参考訳）: CodeRL:事前学習モデルによるコード生成と深層強化学習
Authors: Hung Le, Yue Wang, Akhilesh Deepak Gotmare, Silvio Savarese, Steven C.H. Hoi
Abstract要約: CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
参考スコア（独自算出の注目度）: 92.36705236706678
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Program synthesis or code generation aims to generate a program that satisfies a problem specification. Recent approaches using large-scale pretrained language models (LMs) have shown promising results, yet they have some critical limitations. In particular, they often follow a standard supervised fine-tuning procedure to train a code generation model only from the pairs of natural-language problem descriptions and ground-truth programs. Such paradigm largely ignores some important but potentially useful signals in the problem specification such as unit tests, which thus often results in poor performance when solving complex unseen coding tasks. To address the limitations, we propose "CodeRL", a new framework for program synthesis tasks through pretrained LMs and deep reinforcement learning (RL). Specifically, during training, we treat the code-generating LM as an actor network, and introduce a critic network that is trained to predict the functional correctness of generated programs and provide dense feedback signals to the actor. During inference, we introduce a new generation procedure with a critical sampling strategy that allows a model to automatically regenerate programs based on feedback from example unit tests and critic scores. For the model backbones, we extended the encoder-decoder architecture of CodeT5 with enhanced learning objectives, larger model sizes, and better pretraining data. Our method not only achieves new SOTA results on the challenging APPS benchmark, but also shows strong zero-shot transfer capability with new SOTA results on the simpler MBPP benchmark.
Abstract（参考訳）: プログラム合成またはコード生成は、問題仕様を満たすプログラムを生成することを目的としている。大規模事前訓練言語モデル(LM)を用いた最近のアプローチは有望な結果を示しているが、いくつかの限界がある。特に、彼らはしばしば、自然言語問題記述と接地真実プログラムのペアからのみコード生成モデルを訓練する標準的な微調整手順に従う。このようなパラダイムは、ユニットテストのような問題仕様において、重要なけれども潜在的に有用なシグナルを無視しているため、複雑な目に見えないコーディングタスクを解決する場合、パフォーマンスが低下することが多い。この制限に対処するために,事前学習されたLMと深層強化学習(RL)によるプログラム合成タスクのための新しいフレームワークであるCodeRLを提案する。具体的には、トレーニング中にコード生成LMをアクターネットワークとして扱い、生成されたプログラムの機能的正しさを予測し、アクターに密着したフィードバック信号を提供するよう訓練された批評家ネットワークを導入する。推論中,本手法では,ユニットテストや批判スコアからのフィードバックに基づいて,モデルが自動的にプログラムを再生成することを可能にする,批判的サンプリング戦略を備えた新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標の強化,モデルサイズの拡大,事前学習データの改善を行った。提案手法は,APPSベンチマークにおいて新しいSOTA結果を得るだけでなく,より単純なMBPPベンチマークにおいて,新たなSOTA結果とともに強力なゼロショット転送能力を示す。

関連論文リスト

Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
VeriReason: Reinforcement Learning with Testbench Feedback for Reasoning-Enhanced Verilog Generation [9.07044866283158]
本稿では,教師付き微調整とガイド・リワード近似最適化(GRPO)によるRTL生成のための強化学習を統合するフレームワークであるVeriReasonを紹介する。 VerilogEvalベンチマークでは、VeriReasonは83.1%の機能的正当性を提供しており、比較可能なサイズのモデルと、GPT-4 Turboのようなはるかに大きな商用システムの両方を上回っている。 VeriReasonは、Verilog生成のための強化学習と明示的な推論機能をうまく統合する最初のシステムであり、自動RTL合成のための新しい最先端技術を確立している。
論文参考訳（メタデータ） (2025-05-17T05:25:01Z)
The Graph's Apprentice: Teaching an LLM Low Level Knowledge for Circuit Quality Estimation [34.37154877681809]
We introduced VeriDistill, the first end-to-end machine learning model that direct process raw Verilog code to predict circuit quality-of-result metrics。本モデルでは,LLMに基づく低レベル回路インサイトを予測器に転送する,新しい知識蒸留法を採用している。実験では、VeriDistillは大規模なVerilogデータセット上で最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2024-10-30T04:20:10Z)
Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文参考訳（メタデータ） (2024-10-22T15:59:58Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation [1.335664823620186]
大規模言語モデル(LLM)は最近、ソフトウェア工学のタスクに多くの応用を進歩させた。 CoT-SelfEvolveは、自己修正プロセスを通じて、反復的かつ自動的にコードを洗練する。
論文参考訳（メタデータ） (2024-08-28T09:19:09Z)
Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文参考訳（メタデータ） (2024-07-17T11:35:00Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Automatic Unit Test Data Generation and Actor-Critic Reinforcement Learning for Code Synthesis [16.88062487980405]
本稿では,関数シグネチャと関連する単体テストからなるデータを自動的に取得する手法を提案する。自動生成したトレーニングデータと組み合わせることで,事前学習された言語モデルの性能が向上することを示す。
論文参考訳（メタデータ） (2023-10-20T17:13:16Z)
Enhancing Automated Program Repair through Fine-tuning and Prompt Engineering [2.3826139428423576]
シーケンス・ツー・シーケンスのモデルは、十分に大規模なデータセットでトレーニングされた時に、誤ったプログラムを正しいプログラムに変換するために使われてきた。いくつかの最近の研究は、コードレビューがプログラムの修復をさらに改善できるという強い実証的な証拠を示した。 PLとNLの本質的な知識が,プログラムの自動修復の改善に有効かどうかを検討する。
論文参考訳（メタデータ） (2023-04-16T17:29:51Z)
The Wisdom of Hindsight Makes Language Models Better Instruction Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文参考訳（メタデータ） (2023-02-10T12:16:38Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。