論文の概要: CODE-MVP: Learning to Represent Source Code from Multiple Views with
Contrastive Pre-Training
- arxiv url: http://arxiv.org/abs/2205.02029v1
- Date: Wed, 4 May 2022 12:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 13:32:34.504100
- Title: CODE-MVP: Learning to Represent Source Code from Multiple Views with
Contrastive Pre-Training
- Title(参考訳): CODE-MVP: 対照的な事前学習による複数のビューからソースコードの表現を学ぶ
- Authors: Xin Wang, Yasheng Wang, Yao Wan, Jiawei Wang, Pingyi Zhou, Li Li, Hao
Wu and Jin Liu
- Abstract要約: 本稿では,ソースコードの自然言語記述と異なるビューを,マルチビューによるコントラスト事前学習と統合したフレームワークに統合することを提案する。
具体的には、まずコンパイラツールを用いて複数のコードビューを抽出し、その相補的な情報を対照的な学習フレームワークで学習する。
5つのデータセット上の3つの下流タスクの実験は、いくつかの最先端ベースラインと比較して、CODE-MVPの優位性を示している。
- 参考スコア(独自算出の注目度): 26.695345034376388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed increasing interest in code representation
learning, which aims to represent the semantics of source code into distributed
vectors. Currently, various works have been proposed to represent the complex
semantics of source code from different views, including plain text, Abstract
Syntax Tree (AST), and several kinds of code graphs (e.g., Control/Data Flow
Graph). However, most of them only consider a single view of source code
independently, ignoring the correspondences among different views. In this
paper, we propose to integrate different views with the natural-language
description of source code into a unified framework with Multi-View contrastive
Pre-training, and name our model as CODE-MVP. Specifically, we first extract
multiple code views using compiler tools, and learn the complementary
information among them under a contrastive learning framework. Inspired by the
type checking in compilation, we also design a fine-grained type inference
objective in the pre-training. Experiments on three downstream tasks over five
datasets demonstrate the superiority of CODE-MVP when compared with several
state-of-the-art baselines. For example, we achieve 2.4/2.3/1.1 gain in terms
of MRR/MAP/Accuracy metrics on natural language code retrieval, code
similarity, and code defect detection tasks, respectively.
- Abstract(参考訳): 近年,ソースコードの意味を分散ベクトルに表現することを目的としたコード表現学習への関心が高まっている。
現在、プレーンテキスト、抽象構文木(AST)、いくつかの種類のコードグラフ(コントロール/データフローグラフなど)など、さまざまなビューからソースコードの複雑なセマンティクスを表現するための様々な研究が提案されている。
しかし、その多くはソースコードの単一のビューのみを独立に考慮し、異なるビュー間の対応を無視している。
本稿では,ソースコードの自然言語記述を多視点コントラスト事前学習と統合したフレームワークに統合し,私たちのモデルをCODE-MVPと名付けることを提案する。
具体的には、まずコンパイラツールを用いて複数のコードビューを抽出し、その相補的な情報を対照的な学習フレームワークで学習する。
コンパイル中の型チェックにインスパイアされた我々は、事前トレーニングにおいて、きめ細かい型推論の目的も設計する。
5つのデータセット上の3つの下流タスクの実験は、いくつかの最先端ベースラインと比較して、CODE-MVPの優位性を示している。
例えば、MRR/MAP/Accuracyの自然言語検索、コード類似性、およびコード欠陥検出タスクでそれぞれ2.4/2.3/1.1のゲインを達成する。
関連論文リスト
- Abstract Syntax Tree for Programming Language Understanding and
Representation: How Far Are We? [23.52632194060246]
プログラミング言語の理解と表現(コード表現学習)は、ソフトウェア工学において常にホットで挑戦的なタスクである。
抽象構文木(AST)は、ソースコードの構文情報を表現し、コード表現学習で広く使われている。
コードトークンシーケンス(略してToken)ベースのコード表現とASTベースのコード表現でトレーニングされた3種類のコード関連タスクのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2023-12-01T08:37:27Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained
Model [23.947178895479464]
CLSEBERTは,構文強化符号事前学習モデルのための構築学習フレームワークである。
事前学習段階では、抽象構文木(AST)に含まれるコード構文と階層について検討する。
ひとつは抽象構文木内のノード間のエッジを予測することであり、もう一つはコードトークンの型を予測することである。
論文 参考訳(メタデータ) (2021-08-10T10:08:21Z) - Universal Representation for Code [8.978516631649276]
新しいグラフベースのコード表現の上に効果的なプリトレーニング戦略を提示する。
我々は、グラフニューラルネットワークの表現を事前学習し、普遍的なコード特性を抽出する。
実世界の2つのデータセット - 30億のjavaメソッドと770万のpythonメソッドにまたがる。
論文 参考訳(メタデータ) (2021-03-04T15:39:25Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。