Fugu-MT 論文翻訳(概要): Robust Learning of Diverse Code Edits

論文の概要: Robust Learning of Diverse Code Edits

arxiv url: http://arxiv.org/abs/2503.03656v1
Date: Wed, 05 Mar 2025 16:39:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-06 17:18:41.214018
Title: Robust Learning of Diverse Code Edits
Title（参考訳）: コード編集におけるロバスト学習
Authors: Tushar Aggarwal, Swayam Singh, Abhijeet Awasthi, Aditya Kanade, Nagarajan Natarajan,
Abstract要約: ソフトウェアエンジニアリングのアクティビティは、しばしば既存のコードへの編集を伴います。コード言語モデル(LM)には、さまざまなタイプのコード編集要求を処理する能力がない。
参考スコア（独自算出の注目度）: 10.565439872488328
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Software engineering activities frequently involve edits to existing code. However, contemporary code language models (LMs) lack the ability to handle diverse types of code-edit requirements. In this work, we attempt to overcome this shortcoming through (1) a novel synthetic data generation pipeline and (2) a robust model adaptation algorithm. Starting with seed code examples and diverse editing criteria, our pipeline generates high-quality samples comprising original and modified code, along with natural language instructions in different styles and verbosity. Today's code LMs come bundled with strong abilities, such as code generation and instruction following, which should not be lost due to fine-tuning. To ensure this, we propose a novel adaptation algorithm, SeleKT, that (a) leverages a dense gradient-based step to identify the weights that are most important for code editing, and (b) does a sparse projection onto the base model to avoid overfitting. Using our approach, we obtain a new series of models NextCoder (adapted from QwenCoder-2.5) that achieves strong results on five code-editing benchmarks, outperforming comparable size models and even several larger ones. We show the generality of our approach on two model families (DeepSeekCoder and QwenCoder), compare against other fine-tuning approaches, and demonstrate robustness by showing retention of code generation abilities post adaptation.
Abstract（参考訳）: ソフトウェアエンジニアリングのアクティビティは、しばしば既存のコードへの編集を伴います。しかし、現代のコード言語モデル(LM)には様々なタイプのコード編集要求を扱う能力がない。本研究では,(1)新しい合成データ生成パイプライン,(2)頑健なモデル適応アルゴリズムを通じて,この欠点を克服しようと試みる。シードコードの例と多様な編集基準から始め、私達のパイプラインは、異なるスタイルと冗長性の自然言語命令とともに、オリジナルコードと修正コードからなる高品質なサンプルを生成します。今日のコードLMには、コード生成や命令フォローのような強力な能力がバンドルされているが、微調整によって失われるべきではない。そこで我々は,新しい適応アルゴリズム SeleKT を提案する。 (a) コードの編集において最も重要な重みを識別するために、密度の高い勾配ベースのステップを活用する。 (b)オーバーフィッティングを避けるため、ベースモデルにスパースプロジェクションを行う。このアプローチを用いることで,5つのコード編集ベンチマークで強力な結果が得られるNextCoder(QwenCoder-2.5から適応)の新たなモデルが得られた。 2つのモデルファミリ(DeepSeekCoderとQwenCoder)に対する我々のアプローチの一般性を示し、他の微調整アプローチと比較し、適応後のコード生成能力の維持を示すことによって堅牢性を示す。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文参考訳（メタデータ） (2025-03-04T19:17:36Z)
UniGenCoder: Merging Seq2Seq and Seq2Tree Paradigms for Unified Code Generation [32.315975899771495]
既存のコード生成アプローチでは、トークンのシーケンスとしてターゲットコードを生成するSequence-to-Sequenceパラダイムや、アクションのシーケンスとしてコードを出力するSequence-to-Treeパラダイムが重視されている。コード関連生成タスクに対してUniGenCoderを提案する。これは共有エンコーダと、最小限の追加パラメータを持つ共有デコーダと、各インスタンスに対して最適なパラダイムを動的に選択するセレクタから構成される。テキスト・ツー・コード生成タスクとコード・ツー・コード生成タスクの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2025-02-18T03:19:48Z)
Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation [0.24578723416255752]
テキスト・ツー・コード生成の能力について,5つの大言語モデル (LLM) を評価した。 ChatGPTはこれらの典型的なプログラミング課題を、Code Llamaのようなコード特化モデルよりもはるかに効果的に処理することができる。
論文参考訳（メタデータ） (2024-09-06T10:03:49Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文参考訳（メタデータ） (2024-01-26T09:23:27Z)
CodeCoT: Tackling Code Syntax Errors in CoT Reasoning for Code Generation [6.139760107605468]
チェーン・オブ・シント(CoT)は、複雑な推論タスクにおいて特に有効であるとして、NLPの画期的なツールとして登場した。コード生成のための自己検査プロセスとCoTを統合したCode Chain-of-Thought(CodeCoT)を提案する。
論文参考訳（メタデータ） (2023-08-17T04:58:51Z)
Towards Accurate Image Coding: Improved Autoregressive Image Generation with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文参考訳（メタデータ） (2023-05-19T14:56:05Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)
Improving Code Search with Hard Negative Sampling Based on Fine-tuning [15.341959871682981]
本稿では,クエリとコードの結合を共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Ranker(RR)フレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文参考訳（メタデータ） (2023-05-08T07:04:28Z)
Enriching Source Code with Contextual Data for Code Completion Models: An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文参考訳（メタデータ） (2023-04-24T17:09:14Z)
Greener yet Powerful: Taming Large Code Generation Models with Quantization [47.734976584580224]
事前訓練された大規模なディープラーニングモデルは、コード生成の境界を大幅に押し下げた。その大きな力にもかかわらず、膨大な数のモデルパラメータが、通常のソフトウェア開発環境でそれらを適用することに重大な脅威をもたらします。モデル圧縮はこれらの課題に対処するための有望なアプローチである。
論文参考訳（メタデータ） (2023-03-09T16:25:51Z)
InCoder: A Generative Model for Code Infilling and Synthesis [88.46061996766348]
InCoderは、プログラム合成(左から右への生成)と編集(埋め込み)が可能な統合生成モデルである。 InCoderは、許可されたコードの大きなコーパスからコードファイルを生成するように訓練されている。私たちのモデルは、ゼロショットコードの埋め込みを直接実行できる最初の生成モデルです。
論文参考訳（メタデータ） (2022-04-12T16:25:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。