論文の概要: Robust Learning of Diverse Code Edits
- arxiv url: http://arxiv.org/abs/2503.03656v1
- Date: Wed, 05 Mar 2025 16:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:49.507745
- Title: Robust Learning of Diverse Code Edits
- Title(参考訳): コード編集におけるロバスト学習
- Authors: Tushar Aggarwal, Swayam Singh, Abhijeet Awasthi, Aditya Kanade, Nagarajan Natarajan,
- Abstract要約: ソフトウェアエンジニアリングのアクティビティは、しばしば既存のコードへの編集を伴います。
コード言語モデル(LM)には、さまざまなタイプのコード編集要求を処理する能力がない。
- 参考スコア(独自算出の注目度): 10.565439872488328
- License:
- Abstract: Software engineering activities frequently involve edits to existing code. However, contemporary code language models (LMs) lack the ability to handle diverse types of code-edit requirements. In this work, we attempt to overcome this shortcoming through (1) a novel synthetic data generation pipeline and (2) a robust model adaptation algorithm. Starting with seed code examples and diverse editing criteria, our pipeline generates high-quality samples comprising original and modified code, along with natural language instructions in different styles and verbosity. Today's code LMs come bundled with strong abilities, such as code generation and instruction following, which should not be lost due to fine-tuning. To ensure this, we propose a novel adaptation algorithm, SeleKT, that (a) leverages a dense gradient-based step to identify the weights that are most important for code editing, and (b) does a sparse projection onto the base model to avoid overfitting. Using our approach, we obtain a new series of models NextCoder (adapted from QwenCoder-2.5) that achieves strong results on five code-editing benchmarks, outperforming comparable size models and even several larger ones. We show the generality of our approach on two model families (DeepSeekCoder and QwenCoder), compare against other fine-tuning approaches, and demonstrate robustness by showing retention of code generation abilities post adaptation.
- Abstract(参考訳): ソフトウェアエンジニアリングのアクティビティは、しばしば既存のコードへの編集を伴います。
しかし、現代のコード言語モデル(LM)には様々なタイプのコード編集要求を扱う能力がない。
本研究では,(1)新しい合成データ生成パイプライン,(2)頑健なモデル適応アルゴリズムを通じて,この欠点を克服しようと試みる。
シードコードの例と多様な編集基準から始め、私達のパイプラインは、異なるスタイルと冗長性の自然言語命令とともに、オリジナルコードと修正コードからなる高品質なサンプルを生成します。
今日のコードLMには、コード生成や命令フォローのような強力な能力がバンドルされているが、微調整によって失われるべきではない。
そこで我々は,新しい適応アルゴリズム SeleKT を提案する。
(a) コードの編集において最も重要な重みを識別するために、密度の高い勾配ベースのステップを活用する。
(b)オーバーフィッティングを避けるため、ベースモデルにスパースプロジェクションを行う。
このアプローチを用いることで,5つのコード編集ベンチマークで強力な結果が得られるNextCoder(QwenCoder-2.5から適応)の新たなモデルが得られた。
2つのモデルファミリ(DeepSeekCoderとQwenCoder)に対する我々のアプローチの一般性を示し、他の微調整アプローチと比較し、適応後のコード生成能力の維持を示すことによって堅牢性を示す。
関連論文リスト
- UniGenCoder: Merging Seq2Seq and Seq2Tree Paradigms for Unified Code Generation [32.315975899771495]
既存のコード生成アプローチでは、トークンのシーケンスとしてターゲットコードを生成するSequence-to-Sequenceパラダイムや、アクションのシーケンスとしてコードを出力するSequence-to-Treeパラダイムが重視されている。
コード関連生成タスクに対してUniGenCoderを提案する。これは共有エンコーダと、最小限の追加パラメータを持つ共有デコーダと、各インスタンスに対して最適なパラダイムを動的に選択するセレクタから構成される。
テキスト・ツー・コード生成タスクとコード・ツー・コード生成タスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-02-18T03:19:48Z) - Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation [0.24578723416255752]
テキスト・ツー・コード生成の能力について,5つの大言語モデル (LLM) を評価した。
ChatGPTはこれらの典型的なプログラミング課題を、Code Llamaのようなコード特化モデルよりもはるかに効果的に処理することができる。
論文 参考訳(メタデータ) (2024-09-06T10:03:49Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - Improving Code Search with Hard Negative Sampling Based on Fine-tuning [15.341959871682981]
本稿では,クエリとコードの結合を共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。
また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Ranker(RR)フレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文 参考訳(メタデータ) (2023-05-08T07:04:28Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z) - InCoder: A Generative Model for Code Infilling and Synthesis [88.46061996766348]
InCoderは、プログラム合成(左から右への生成)と編集(埋め込み)が可能な統合生成モデルである。
InCoderは、許可されたコードの大きなコーパスからコードファイルを生成するように訓練されている。
私たちのモデルは、ゼロショットコードの埋め込みを直接実行できる最初の生成モデルです。
論文 参考訳(メタデータ) (2022-04-12T16:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。