論文の概要: CCT5: A Code-Change-Oriented Pre-Trained Model
- arxiv url: http://arxiv.org/abs/2305.10785v1
- Date: Thu, 18 May 2023 07:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 08:13:12.982162
- Title: CCT5: A Code-Change-Oriented Pre-Trained Model
- Title(参考訳): CCT5: コードチェンジ指向の事前トレーニングモデル
- Authors: Bo Lin, Shangwen Wang, Zhongxin Liu, Yepang Liu, Xin Xia and Xiaoguang
Mao
- Abstract要約: 我々は、ソフトウェアメンテナンスにおける開発者のサポートを改善するために、コード変更用に特別に設計されたモデルを事前訓練することを提案する。
まず、1.5M以上のコード変更とコミットメッセージのペアデータを含む大規模なデータセットを収集します。
トレーニング済みのモデルであるCCT5を、コードの変更とコードレビュープロセスに特有の2つのタスクによって引き起こされる3つの広範囲に分散したタスクで微調整する。
- 参考スコア(独自算出の注目度): 14.225942520238936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software is constantly changing, requiring developers to perform several
derived tasks in a timely manner, such as writing a description for the
intention of the code change, or identifying the defect-prone code changes.
Considering that the cost of dealing with these tasks can account for a large
proportion (typically around 70 percent) of the total development expenditure,
automating such processes will significantly lighten the burdens of developers.
To achieve such a target, existing approaches mainly rely on training deep
learning models from scratch or fine-tuning existing pretrained models on such
tasks, both of which have weaknesses. Specifically, the former uses
comparatively small-scale labelled data for training, making it difficult to
learn and exploit the domain knowledge of programming language hidden in the
large-amount unlabelled code in the wild; the latter is hard to fully leverage
the learned knowledge of the pre-trained model, as existing pre-trained models
are designed to encode a single code snippet rather than a code change (i.e.,
the difference between two code snippets). We propose to pre-train a model
specially designed for code changes to better support developers in software
maintenance. To this end, we first collect a large-scale dataset containing
1.5M+ pairwise data of code changes and commit messages. Based on these data,
we curate five different tasks for pre-training, which equip the model with
diverse domain knowledge about code changes. We fine-tune the pre-trained
model, CCT5, on three widely-studied tasks incurred by code changes and two
tasks specific to the code review process. Results show that CCT5 outperforms
both conventional deep learning approaches and existing pre-trained models on
these tasks.
- Abstract(参考訳): ソフトウェアは絶えず変化しており、開発者はコード変更の意図に関する記述を書いたり、欠陥の多いコード変更を特定したりといった、タイムリーな方法でいくつかの派生タスクを実行する必要がある。
これらのタスクを扱うコストが開発費用の占める割合(約70%)が大きいことを考慮すると、プロセスの自動化は開発者の負担を大幅に軽減します。
このような目標を達成するために、既存のアプローチは主に、スクラッチからディープラーニングモデルをトレーニングするか、既存のトレーニング済みモデルをこれらのタスクで微調整するかに依存している。
既存のトレーニング済みモデルは、コードの変更(つまり、2つのコードスニペットの違い)ではなく、1つのコードスニペットをエンコードするように設計されているため、トレーニング済みモデルの学習知識を十分に活用することは難しい。
我々は、ソフトウェアメンテナンスにおける開発者のサポートを改善するために、コード変更用に特別に設計されたモデルを事前訓練することを提案する。
そこで我々はまず,1.5m以上のコード変更とコミットメッセージのペアワイズデータを含む大規模データセットを収集する。
これらのデータに基づいて、事前学習のための5つの異なるタスクをキュレートする。
我々は、コードの変更とコードレビュープロセスに特有の2つのタスクによって、広く研究されている3つのタスクに対して、事前訓練されたモデルであるCCT5を微調整する。
その結果,CCT5は従来のディープラーニング手法と既存の事前学習モデルの両方に優れていた。
関連論文リスト
- Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - GenCode: A Generic Data Augmentation Framework for Boosting Deep Learning-Based Code Understanding [28.02426812004216]
我々は、コード理解モデルのトレーニングを強化するために、汎用データ拡張フレームワークGenCodeを導入する。
GenCodeの有効性を評価するため、4つのコード理解タスクと3つの事前学習されたコードモデルの実験を行った。
最先端(SOTA)のコード拡張手法であるMixCodeと比較すると、GenCodeは平均で2.92%高い精度と4.90%の堅牢性を持つコードモデルを生成する。
論文 参考訳(メタデータ) (2024-02-24T08:57:12Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - Probing Pretrained Models of Source Code [14.904366372190943]
一般的な事前学習モデルは、多くのアプリケーションにおいてタスク固有のモデルよりも優れていることが示されている。
事前訓練されたコードのモデルには、コード構文構造と正当性、識別子の概念、データフローと正当性、自然言語の命名に関する情報が含まれている。
論文 参考訳(メタデータ) (2022-02-16T10:26:14Z) - Bridging Pre-trained Models and Downstream Tasks for Source Code
Understanding [13.65914588243695]
本稿では,事前学習されたモデルとコード関連タスクをブリッジする手法を提案する。
我々は、下流データの多様性を豊かにする意味保存変換を利用する。
本稿では,既存の事前学習モデルを微調整するために,変換されたデータを手軽に整理するためのカリキュラム学習を紹介する。
論文 参考訳(メタデータ) (2021-12-04T07:21:28Z) - CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for
Code Understanding and Generation [36.47905744758698]
我々は、開発者が指定した識別子から伝達されるコードセマンティクスをよりよく活用する、事前訓練されたエンコーダ-デコーダ変換モデルであるCodeT5を提案する。
我々のモデルは、コード理解と生成タスクの両方をシームレスにサポートし、マルチタスク学習を可能にする統一的なフレームワークを採用している。
論文 参考訳(メタデータ) (2021-09-02T12:21:06Z) - Unsupervised Learning of General-Purpose Embeddings for Code Changes [6.652641137999891]
事前学習中にコード変更の埋め込みを得る手法を提案する。
コードの変更とコミットメッセージ生成という、2つの異なる下流タスクでそれらを評価します。
本モデルでは,完全編集シーケンスを用いたモデルの精度を5.9ポイント向上させる。
論文 参考訳(メタデータ) (2021-06-03T19:08:53Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。