論文の概要: IRCoCo: Immediate Rewards-Guided Deep Reinforcement Learning for Code
Completion
- arxiv url: http://arxiv.org/abs/2401.16637v2
- Date: Thu, 1 Feb 2024 04:40:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 11:50:32.133758
- Title: IRCoCo: Immediate Rewards-Guided Deep Reinforcement Learning for Code
Completion
- Title(参考訳): IRCoCo: コード補完のための即時リワードガイドによる深層強化学習
- Authors: Bolun Li, Zhihong Sun, Tao Huang, Hongyu Zhang, Yao Wan, Ge Li, Zhi
Jin, Chen Lyu
- Abstract要約: コード補完固有のDRLに基づく微調整フレームワークIRCoCoを提案する。
我々は、IRCoCoを用いた微調整済みLMが、コード補完タスクの大幅な改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 38.863871578280936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code completion aims to enhance programming productivity by predicting
potential code based on the current programming context. Recently, pretrained
language models (LMs) have become prominent in this field. Various approaches
have been proposed to fine-tune LMs using supervised fine-tuning (SFT)
techniques for code completion. However, the inherent exposure bias of these
models can cause errors to accumulate early in the sequence completion, leading
to even more errors in subsequent completions. To address this problem, deep
reinforcement learning (DRL) is an alternative technique for fine-tuning LMs
for code completion, which can improve the generalization capabilities and
overall performance. Nevertheless, integrating DRL-based strategies into code
completion faces two major challenges: 1) The dynamic nature of the code
context requires the completion model to quickly adapt to changes, which poses
difficulties for conventional DRL strategies that focus on delayed rewarding of
the final code state. 2) It is difficult to evaluate the correctness of partial
code, thus the reward redistribution-based strategies cannot be adapted to code
completion. To tackle these challenges, we propose IRCoCo, a code
completion-specific DRL-based fine-tuning framework. This framework is designed
to provide immediate rewards as feedback for detecting dynamic context changes
arising from continuous edits during code completion. With the aid of immediate
feedback, the fine-tuned LM can gain a more precise understanding of the
current context, thereby enabling effective adjustment of the LM and optimizing
code completion in a more refined manner. Experimental results demonstrate that
fine-tuning pretrained LMs with IRCoCo leads to significant improvements in the
code completion task, outperforming both SFT-based and other DRL-based
baselines.
- Abstract(参考訳): コード補完は、現在のプログラミングコンテキストに基づいて潜在的なコードを予測することによって、プログラミング生産性を向上させることを目的としている。
近年,この分野では,事前学習型言語モデル (LM) が注目されている。
コード補完のためにsupervised fine-tuning (sft) 技術を用いてlmsを微調整する様々なアプローチが提案されている。
しかし、これらのモデルの固有の露出バイアスは、シーケンス完了の早い段階でエラーが蓄積し、その後の完了でさらにエラーが発生する可能性がある。
この問題に対処するために、深層強化学習(DRL)は、コード補完のための微調整LMの代替手法であり、一般化能力と全体的な性能を改善することができる。
それでも、DRLベースの戦略をコード補完に統合することは、2つの大きな課題に直面している。
1) コードコンテキストの動的な性質は、変更に迅速に適応するために完了モデルを必要とします。
2) 部分的コードの正確性を評価することは困難であり, 報酬再分配に基づく戦略はコード補完には適用できない。
これらの課題に対処するために、コード補完固有のDRLベースの微調整フレームワークIRCoCoを提案する。
このフレームワークは、コード補完中の継続的な編集に起因する動的コンテキスト変化を検出するフィードバックとして、即時報酬を提供するように設計されている。
即時フィードバックによって、微調整されたLMは現在の状況をより正確に理解し、LMを効果的に調整し、コード補完をより洗練された方法で最適化することができる。
実験により、IRCoCoを用いた微調整済みLMは、コード補完タスクを大幅に改善し、SFTベースおよび他のDRLベースラインを上回った。
関連論文リスト
- CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。
典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。
微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:20:39Z) - Factor Graph Optimization of Error-Correcting Codes for Belief Propagation Decoding [62.25533750469467]
低密度パリティ・チェック (LDPC) コードは、他の種類のコードに対していくつかの利点がある。
提案手法は,既存の人気符号の復号性能を桁違いに向上させる。
論文 参考訳(メタデータ) (2024-06-09T12:08:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - REPOFUSE: Repository-Level Code Completion with Fused Dual Context [11.531678717514724]
本稿では,遅延トレードオフを伴わずにリポジトリレベルのコード補完を向上するための先駆的ソリューションであるREPOFUSEを紹介する。
本稿では、2種類の文脈を制限された大きさのプロンプトに効率的に凝縮する新しいランク・トランケート・ジェネレーション(RTG)手法を提案する。
REPOFUSEは既存のモデルよりも大幅に飛躍し、コード補完の正確な一致(EM)精度が40.90%から59.75%向上し、推論速度が26.8%向上した。
論文 参考訳(メタデータ) (2024-02-22T06:34:50Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Execution-based Code Generation using Deep Reinforcement Learning [8.085533911328577]
PPOCoderは、事前訓練されたPLモデルとプロキシポリシー最適化を組み合わせた、コード生成のための新しいフレームワークである。
PPOCoderは、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。
PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。
論文 参考訳(メタデータ) (2023-01-31T18:02:26Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。