Fugu-MT 論文翻訳(概要): Enhancing High-Quality Code Generation in Large Language Models with Comparative Prefix-Tuning

論文の概要: Enhancing High-Quality Code Generation in Large Language Models with Comparative Prefix-Tuning

arxiv url: http://arxiv.org/abs/2503.09020v1
Date: Wed, 12 Mar 2025 03:15:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-13 21:17:52.597636
Title: Enhancing High-Quality Code Generation in Large Language Models with Comparative Prefix-Tuning
Title（参考訳）: プレフィックスチューニングの比較による大規模言語モデルにおける高品質コード生成の促進
Authors: Yuan Jiang, Yujian Zhang, Liang Lu, Christoph Treude, Xiaohong Su, Shan Huang, Tiantian Wang,
Abstract要約: 大型言語モデル(LLM)は商用コード補完エンジンで広く採用されている。 LLMは、コーディング標準に違反した品質の問題のあるコードを生成する。制御可能な高品質コード生成のための新しい比較プレフィックスチューニング法を提案する。
参考スコア（独自算出の注目度）: 19.53507218261719
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have been widely adopted in commercial code completion engines, significantly enhancing coding efficiency and productivity. However, LLMs may generate code with quality issues that violate coding standards and best practices, such as poor code style and maintainability, even when the code is functionally correct. This necessitates additional effort from developers to improve the code, potentially negating the efficiency gains provided by LLMs. To address this problem, we propose a novel comparative prefix-tuning method for controllable high-quality code generation. Our method introduces a single, property-specific prefix that is prepended to the activations of the LLM, serving as a lightweight alternative to fine-tuning. Unlike existing methods that require training multiple prefixes, our approach trains only one prefix and leverages pairs of high-quality and low-quality code samples, introducing a sequence-level ranking loss to guide the model's training. This comparative approach enables the model to better understand the differences between high-quality and low-quality code, focusing on aspects that impact code quality. Additionally, we design a data construction pipeline to collect and annotate pairs of high-quality and low-quality code, facilitating effective training. Extensive experiments on the Code Llama 7B model demonstrate that our method improves code quality by over 100% in certain task categories, while maintaining functional correctness. We also conduct ablation studies and generalization experiments, confirming the effectiveness of our method's components and its strong generalization capability.
Abstract（参考訳）: 大型言語モデル(LLM)は商用のコード補完エンジンで広く採用されており、コーディング効率と生産性を大幅に向上している。しかし、LLMはコーディング標準に反する品質の問題やコードスタイルや保守性などのベストプラクティス、たとえコードが機能的に正しいとしてもコードを生成する可能性がある。これにより、開発者はコードを改善するための追加の努力が必要となり、LLMが提供する効率向上を否定する可能性がある。この問題に対処するために、制御可能な高品質コード生成のための新しい比較プレフィックスチューニング手法を提案する。本手法では,LCMの活性化に先立って,単一プロパティ固有のプレフィックスを導入し,微調整の軽量な代替手段として機能する。複数のプレフィックスをトレーニングする既存の方法とは異なり、我々のアプローチは1つのプレフィックスのみを訓練し、高品質と低品質のコードサンプルのペアを活用する。この比較アプローチは、高品質と低品質のコードの違いをよりよく理解し、コード品質に影響を与える側面に焦点を当てます。さらに、高品質で低品質なコードのペアを収集、注釈付けするためのデータ構築パイプラインを設計し、効果的なトレーニングを容易にします。 Code Llama 7Bモデルによる大規模な実験では,機能的正確性を維持しつつ,特定のタスクカテゴリにおいてコード品質を100%以上向上することを示した。また、アブレーション実験や一般化実験を行い、本手法の有効性と強力な一般化能力を確認した。

関連論文リスト

FasterPy: An LLM-based Code Execution Efficiency Optimization Framework [11.766544835516974]
コードはしばしばパフォーマンスのバグに悩まされる。従来のルールベースのメソッドは、特定のパフォーマンスバグに対するルールを手動で設計し、保守することに依存しています。我々は,Pythonコードの実行効率を最適化するために,大規模言語モデルを適用するフレームワークであるFasterPyを提案する。
論文参考訳（メタデータ） (2025-12-28T07:43:08Z)
Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文参考訳（メタデータ） (2025-07-15T08:25:02Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
LLM4EFFI: Leveraging Large Language Models to Enhance Code Efficiency and Correctness [38.399282089600284]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを示している。 ulineLarge ulineLanguage ulineModel for Code ulineEfficiencyは、LLMが効率性と正確性の両方のバランスをとるコードを生成することができる新しいフレームワークである。
論文参考訳（メタデータ） (2025-02-17T07:01:18Z)
ACECode: A Reinforcement Learning Framework for Aligning Code Efficiency and Correctness in Code Language Models [9.4219427550154]
SOAP や PIE のような CodeLLM のコード効率を最適化するための既存のアプローチには、いくつかの制限がある。 ACECodeは、強化学習に基づく微調整フレームワークで、CodeLLMを効率と正確性の2つの目的に合わせる。 ACECodeは4つのSOTA (state-of-the-art) CodeLLMを微調整し、それらのコードをオリジナル、命令調整、PIE調整の3つのベースラインと比較することで評価する。
論文参考訳（メタデータ） (2024-12-23T04:19:45Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。 CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文参考訳（メタデータ） (2024-10-08T01:36:15Z)
zsLLMCode: An Effective Approach for Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
本稿では,大言語モデル(LLM)と文埋め込みモデルを用いて,新たなゼロショット手法であるzsLLMCodeを提案する。その結果,最先端の教師なしアプローチに対する提案手法の有効性と優位性を実証した。
論文参考訳（メタデータ） (2024-09-23T01:03:15Z)
AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文参考訳（メタデータ） (2024-05-29T16:57:33Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)
Execution-based Code Generation using Deep Reinforcement Learning [8.085533911328577]
PPOCoderは、事前訓練されたPLモデルとプロキシポリシー最適化を組み合わせた、コード生成のための新しいフレームワークである。 PPOCoderは、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。 PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。
論文参考訳（メタデータ） (2023-01-31T18:02:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。