Fugu-MT 論文翻訳(概要): Generating refactored code accurately using reinforcement learning

論文の概要: Generating refactored code accurately using reinforcement learning

arxiv url: http://arxiv.org/abs/2412.18035v1
Date: Mon, 23 Dec 2024 23:09:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-25 19:23:17.59354
Title: Generating refactored code accurately using reinforcement learning
Title（参考訳）: 強化学習を用いたリファクタリングコードの自動生成
Authors: Indranil Palit, Tushar Sharma,
Abstract要約: そこで本研究では,Javaソースコードの自動抽出を行うために,プログラム言語モデルを微調整・整合化するための強化学習に基づく新しい手法を提案する。提案手法は,PPO(Proximal Policy Optimization)アルゴリズムを用いて,シーケンス・ツー・シーケンス生成モデルを微調整する。我々の実験は、我々のアプローチがコードにおける大きな言語モデルの性能を大幅に向上させることを示した。
参考スコア（独自算出の注目度）: 3.179831861897336
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated source code refactoring, particularly extract method refactoring, is a crucial and frequently employed technique during software development. Despite its importance and frequent use by practitioners, current automated techniques face significant limitations. These approaches often rely on developers to identify the precise bounds of refactoring opportunities in terms of source code statements. Also, they often do not capture the semantic context, resulting in offering no automated means to suggest meaningful method name, for instance. To address these challenges, we propose a novel reinforcement learning-based approach for fine-tuning and aligning code language models to perform automated, intelligent extract method refactoring on Java source code. Our approach fine-tunes sequence-to-sequence generative models and aligns them using the Proximal Policy Optimization (PPO) algorithm. We utilize code compilation and presence of the refactoring in the generated code as reward signals, providing a code-centric optimization process. Our experiments demonstrate that our approach significantly enhances the performance of large language models in code refactoring, as evidenced by both quantitative evaluation metrics such as BLEU, ROUGE, and CodeBLEU, and qualitative measures including syntactical and functional correctness. The supervised fine-tuned model, further aligned with PPO, surpasses traditional supervised fine-tuning by 11.96% and 16.45% in terms of BLEU and CodeBLEU scores, respectively. When subjected to a suite of 122 unit tests, the number of successful tests increased from 41 to 66 for the reinforcement learning aligned fine-tuned Code-T5 model, highlighting the effectiveness of our approach in producing functionally correct refactorings.
Abstract（参考訳）: ソースコードリファクタリングの自動化、特にメソッドリファクタリングの抽出は、ソフトウェア開発において重要かつ頻繁に使用されるテクニックです。その重要性と実践者による頻繁な使用にもかかわらず、現在の自動化技術は重大な制限に直面している。これらのアプローチは、しばしば、ソースコードステートメントの観点でリファクタリングの機会の正確な境界を特定するために、開発者に頼っている。また、セマンティックコンテキストをキャプチャしないことが多いため、例えば意味のあるメソッド名を提案する自動化された手段は提供されない。これらの課題に対処するため,我々は,Javaソースコード上で自動でインテリジェントな抽出メソッドリファクタリングを実行するために,プログラム言語モデルを微調整および整列する,強化学習に基づく新しいアプローチを提案する。提案手法は,PPO(Proximal Policy Optimization)アルゴリズムを用いて,シーケンス・ツー・シーケンス生成モデルを微調整する。コードコンパイルと生成したコードのリファクタリングの存在を報奨信号として利用し、コード中心の最適化プロセスを提供します。提案手法は,BLEU,ROUGE,CodeBLEUなどの定量的評価指標と,構文的および機能的正当性を含む定性的尺度の両方により,コードリファクタリングにおける大規模言語モデルの性能を著しく向上させることを示す。教師付き微調整モデルはさらにPPOと整合し、それぞれBLEUとCodeBLEUのスコアで従来の監督型微調整を11.96%、16.45%上回っている。 122件の単体テストを受けると, 強化学習用コード-T5モデルでは41件から66件に増加し, 機能的に正しいリファクタリングを行う上でのアプローチの有効性を強調した。

関連論文リスト

Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Iterative Self-Training for Code Generation via Reinforced Re-Ranking [5.77678027975395]
PPO(Proximal Policy Optimization)を用いた自己学習型リランカモデルのための新しい反復型自己学習手法を提案する。従来のPPOアプローチとは異なり、我々のアプローチは堅牢な報酬/報酬モデルの開発に重点を置いている。提案手法は,出力を再評価し,ハイスコアな負例を特定し,トレーニングループに組み込むことで,トレーニングデータセットを洗練する。
論文参考訳（メタデータ） (2025-04-13T16:34:17Z)
MANTRA: Enhancing Automated Method-Level Refactoring with Contextual RAG and Multi-Agent LLM Collaboration [44.75848695076576]
本稿では,包括的Large Language ModelsエージェントベースのフレームワークであるMANTRAを紹介する。 ManTRAは、コンテキスト対応検索強化生成、協調型マルチエージェントコラボレーション、および言語強化学習を統合している。 MANTRA はベースライン LLM モデルを大幅に上回ることを示す実験結果が得られた。
論文参考訳（メタデータ） (2025-03-18T15:16:51Z)
Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文参考訳（メタデータ） (2025-01-28T15:41:54Z)
An Empirical Study on the Code Refactoring Capability of Large Language Models [0.5852077003870416]
この研究は、30のオープンソースプロジェクトにわたるコードにおいて、コード生成に最適化されたLLMであるStarCoder2を実証的に評価する。我々は,(1)コード品質の改善,(2)臭いの型と有効性,(3)ワンショットとチェーン・オブ・シークレットのプロンプトによる改善に焦点を当て,StarCoder2のパフォーマンスを人間開発者と比較した。
論文参考訳（メタデータ） (2024-11-04T17:46:20Z)
CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。 CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文参考訳（メタデータ） (2024-10-08T01:36:15Z)
Prompt-based Code Completion via Multi-Retrieval Augmented Generation [15.233727939816388]
ProCCは、プロンプトエンジニアリングとコンテキスト多武装バンディットアルゴリズムを活用したコード補完フレームワークである。 ProCCは、収集したオープンソースベンチマークスイートにおいて、最先端のコード補完テクニックを8.6%上回ります。 ProCCはまた, プラグ・アンド・プレイ方式で微調整技術を増強し, 実験した微調整モデルよりも5.6%改善した。
論文参考訳（メタデータ） (2024-05-13T07:56:15Z)
Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文参考訳（メタデータ） (2024-03-04T16:21:54Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
Execution-based Code Generation using Deep Reinforcement Learning [8.085533911328577]
PPOCoderは、事前訓練されたPLモデルとプロキシポリシー最適化を組み合わせた、コード生成のための新しいフレームワークである。 PPOCoderは、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。 PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。
論文参考訳（メタデータ） (2023-01-31T18:02:26Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。