論文の概要: Soft-Labeled Contrastive Pre-training for Function-level Code
Representation
- arxiv url: http://arxiv.org/abs/2210.09597v1
- Date: Tue, 18 Oct 2022 05:17:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 15:41:24.074416
- Title: Soft-Labeled Contrastive Pre-training for Function-level Code
Representation
- Title(参考訳): 関数レベルコード表現のためのソフトラベルコントラスト事前学習
- Authors: Xiaonan Li, Daya Guo, Yeyun Gong, Yun Lin, Yelong Shen, Xipeng Qiu,
Daxin Jiang, Weizhu Chen and Nan Duan
- Abstract要約: textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
- 参考スコア(独自算出の注目度): 127.71430696347174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code contrastive pre-training has recently achieved significant progress on
code-related tasks. In this paper, we present \textbf{SCodeR}, a
\textbf{S}oft-labeled contrastive pre-training framework with two positive
sample construction methods to learn functional-level \textbf{Code}
\textbf{R}epresentation. Considering the relevance between codes in a
large-scale code corpus, the soft-labeled contrastive pre-training can obtain
fine-grained soft-labels through an iterative adversarial manner and use them
to learn better code representation. The positive sample construction is
another key for contrastive pre-training. Previous works use
transformation-based methods like variable renaming to generate semantically
equal positive codes. However, they usually result in the generated code with a
highly similar surface form, and thus mislead the model to focus on superficial
code structure instead of code semantics. To encourage SCodeR to capture
semantic information from the code, we utilize code comments and abstract
syntax sub-trees of the code to build positive samples. We conduct experiments
on four code-related tasks over seven datasets. Extensive experimental results
show that SCodeR achieves new state-of-the-art performance on all of them,
which illustrates the effectiveness of the proposed pre-training method.
- Abstract(参考訳): コードコントラストプレトレーニングは、最近、コード関連のタスクで著しい進歩を遂げた。
本稿では,2つの正のサンプル構成法を用いて,関数レベルの \textbf{code} \textbf{r} 表現を学ぶための,\textbf{s}oftラベル付きコントラスト事前学習フレームワークである \textbf{scoder} を提案する。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は反復的逆行法によりきめ細かなソフトラベルを取得し、それらを用いてより良いコード表現を学ぶことができる。
正のサンプル構成は、対照的な事前学習の鍵である。
以前の作業では、変数リネームのような変換ベースのメソッドを使用して、意味的に等しい正のコードを生成する。
しかし、通常は生成したコードに非常に類似した表面的形状が生じるため、コードセマンティクスの代わりに表面的なコード構造にフォーカスするようにモデルを誤解させる。
SCodeRがコードからセマンティック情報をキャプチャすることを奨励するために、コードコメントと抽象構文サブツリーを使用して、ポジティブなサンプルを構築する。
7つのデータセット上で4つのコード関連タスクを実験する。
実験結果から,SCodeRはこれらすべてに対して新たな最先端性能を実現し,提案手法の有効性を示した。
関連論文リスト
- Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained
Model [23.947178895479464]
CLSEBERTは,構文強化符号事前学習モデルのための構築学習フレームワークである。
事前学習段階では、抽象構文木(AST)に含まれるコード構文と階層について検討する。
ひとつは抽象構文木内のノード間のエッジを予測することであり、もう一つはコードトークンの型を予測することである。
論文 参考訳(メタデータ) (2021-08-10T10:08:21Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - Self-Supervised Contrastive Learning for Code Retrieval and
Summarization via Semantic-Preserving Transformations [28.61567319928316]
Corderは、ソースコードモデルのための自己教師付きコントラスト学習フレームワークである。
重要なイノベーションは、ソースコードモデルをトレーニングし、類似した、異種のコードスニペットを認識するように要求することです。
Corderで事前訓練されたコードモデルは、コード・ツー・コード検索、テキスト・ツー・コード検索、およびコード・ツー・テキスト要約タスクにおいて、他のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-09-06T13:31:16Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。