Fugu-MT 論文翻訳(概要): IRCoCo: Immediate Rewards-Guided Deep Reinforcement Learning for Code Completion

論文の概要: IRCoCo: Immediate Rewards-Guided Deep Reinforcement Learning for Code Completion

arxiv url: http://arxiv.org/abs/2401.16637v3
Date: Thu, 22 Feb 2024 00:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 17:51:13.605648
Title: IRCoCo: Immediate Rewards-Guided Deep Reinforcement Learning for Code Completion
Title（参考訳）: IRCoCo: コード補完のための即時リワードガイドによる深層強化学習
Authors: Bolun Li, Zhihong Sun, Tao Huang, Hongyu Zhang, Yao Wan, Ge Li, Zhi Jin, Chen Lyu
Abstract要約: コード補完固有のDRLに基づく微調整フレームワークIRCoCoを提案する。我々は、IRCoCoを用いた微調整済みLMが、コード補完タスクの大幅な改善をもたらすことを示す。
参考スコア（独自算出の注目度）: 38.863871578280936
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code completion aims to enhance programming productivity by predicting potential code based on the current programming context. Recently, pretrained language models (LMs) have become prominent in this field. Various approaches have been proposed to fine-tune LMs using supervised fine-tuning (SFT) techniques for code completion. However, the inherent exposure bias of these models can cause errors to accumulate early in the sequence completion, leading to even more errors in subsequent completions. To address this problem, deep reinforcement learning (DRL) is an alternative technique for fine-tuning LMs for code completion, which can improve the generalization capabilities and overall performance. Nevertheless, integrating DRL-based strategies into code completion faces two major challenges: 1) The dynamic nature of the code context requires the completion model to quickly adapt to changes, which poses difficulties for conventional DRL strategies that focus on delayed rewarding of the final code state. 2) It is difficult to evaluate the correctness of partial code, thus the reward redistribution-based strategies cannot be adapted to code completion. To tackle these challenges, we propose IRCoCo, a code completion-specific DRL-based fine-tuning framework. This framework is designed to provide immediate rewards as feedback for detecting dynamic context changes arising from continuous edits during code completion. With the aid of immediate feedback, the fine-tuned LM can gain a more precise understanding of the current context, thereby enabling effective adjustment of the LM and optimizing code completion in a more refined manner. Experimental results demonstrate that fine-tuning pretrained LMs with IRCoCo leads to significant improvements in the code completion task, outperforming both SFT-based and other DRL-based baselines.
Abstract（参考訳）: コード補完は、現在のプログラミングコンテキストに基づいて潜在的なコードを予測することによって、プログラミング生産性を向上させることを目的としている。近年,この分野では,事前学習型言語モデル (LM) が注目されている。コード補完のためにsupervised fine-tuning (sft) 技術を用いてlmsを微調整する様々なアプローチが提案されている。しかし、これらのモデルの固有の露出バイアスは、シーケンス完了の早い段階でエラーが蓄積し、その後の完了でさらにエラーが発生する可能性がある。この問題に対処するために、深層強化学習(DRL)は、コード補完のための微調整LMの代替手法であり、一般化能力と全体的な性能を改善することができる。それでも、DRLベースの戦略をコード補完に統合することは、2つの大きな課題に直面している。 1) コードコンテキストの動的な性質は、変更に迅速に適応するために完了モデルを必要とします。 2) 部分的コードの正確性を評価することは困難であり, 報酬再分配に基づく戦略はコード補完には適用できない。これらの課題に対処するために、コード補完固有のDRLベースの微調整フレームワークIRCoCoを提案する。このフレームワークは、コード補完中の継続的な編集に起因する動的コンテキスト変化を検出するフィードバックとして、即時報酬を提供するように設計されている。即時フィードバックによって、微調整されたLMは現在の状況をより正確に理解し、LMを効果的に調整し、コード補完をより洗練された方法で最適化することができる。実験により、IRCoCoを用いた微調整済みLMは、コード補完タスクを大幅に改善し、SFTベースおよび他のDRLベースラインを上回った。

関連論文リスト

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models [26.385183692191873]
大規模言語モデル(LLM)はコーディングパラダイムを変えつつありますが、合成的に洗練され、堅牢なコードは依然として重要な課題です。本稿では,テスト駆動型およびcApability-adaptive cuRriculum reinfOrcement fineTuning (TAROT)を提案する。
論文参考訳（メタデータ） (2026-02-17T09:29:18Z)
ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文参考訳（メタデータ） (2026-01-29T16:04:59Z)
ReST-RL: Achieving Accurate Code Reasoning of LLMs with Optimized Self-Training and Decoding [15.051729280454454]
本稿では,統一LLM RLパラダイムであるReST-RLを紹介する。改良されたGRPOアルゴリズムと、値モデル(VM)が補助する精密に設計されたテスト時間復号法を組み合わせる。提案するRLパラダイムの有効性を検証するために,符号化問題に関する広範な実験を行った。
論文参考訳（メタデータ） (2025-08-27T05:16:03Z)
VERIRL: Boosting the LLM-based Verilog Code Generation via Reinforcement Learning [32.974199255760944]
本稿では,Verilogコード生成に適した強化学習フレームワークを提案する。スパース信号と雑音信号に対処するために,トレースバックに基づくRescore機構を提案する。 RL微調整中の破滅的忘れと過適合を軽減するため,サンプルバランスの重み付け戦略を導入する。
論文参考訳（メタデータ） (2025-08-25T20:20:44Z)
RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。 AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文参考訳（メタデータ） (2025-06-22T17:46:14Z)
Process Supervision-Guided Policy Optimization for Code Generation [15.943210767010045]
単体テストフィードバックによる強化学習(RL)は、大規模言語モデルのLLM(LLM)コード生成を強化したが、完全なコード評価後にのみ提供されるスパース報酬に依存している。本稿では,人間のコード修正を模倣したプロセス・リワード・モデル(PRM)を提案する。
論文参考訳（メタデータ） (2024-10-23T07:22:33Z)
CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。 CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文参考訳（メタデータ） (2024-10-08T01:36:15Z)
Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。 CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文参考訳（メタデータ） (2024-09-19T04:13:58Z)
Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文参考訳（メタデータ） (2024-06-27T22:20:39Z)
Factor Graph Optimization of Error-Correcting Codes for Belief Propagation Decoding [62.25533750469467]
低密度パリティ・チェック (LDPC) コードは、他の種類のコードに対していくつかの利点がある。提案手法は,既存の人気符号の復号性能を桁違いに向上させる。
論文参考訳（メタデータ） (2024-06-09T12:08:56Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
REPOFUSE: Repository-Level Code Completion with Fused Dual Context [11.531678717514724]
本稿では,遅延トレードオフを伴わずにリポジトリレベルのコード補完を向上するための先駆的ソリューションであるREPOFUSEを紹介する。本稿では、2種類の文脈を制限された大きさのプロンプトに効率的に凝縮する新しいランク・トランケート・ジェネレーション(RTG)手法を提案する。 REPOFUSEは既存のモデルよりも大幅に飛躍し、コード補完の正確な一致(EM)精度が40.90%から59.75%向上し、推論速度が26.8%向上した。
論文参考訳（メタデータ） (2024-02-22T06:34:50Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Execution-based Code Generation using Deep Reinforcement Learning [8.085533911328577]
PPOCoderは、事前訓練されたPLモデルとプロキシポリシー最適化を組み合わせた、コード生成のための新しいフレームワークである。 PPOCoderは、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。 PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。
論文参考訳（メタデータ） (2023-01-31T18:02:26Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。