論文の概要: CodeRetriever: Unimodal and Bimodal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2201.10866v1
- Date: Wed, 26 Jan 2022 10:54:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 14:14:05.526957
- Title: CodeRetriever: Unimodal and Bimodal Contrastive Learning
- Title(参考訳): CodeRetriever: ユニモーダルとバイモーダルのコントラスト学習
- Authors: Xiaonan Li, Yeyun Gong, Yelong Shen, Xipeng Qiu, Hang Zhang, Bolun
Yao, Weizhen Qi, Daxin Jiang, Weizhu Chen, Nan Duan
- Abstract要約: 関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
- 参考スコア(独自算出の注目度): 128.06072658302165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose the CodeRetriever model, which combines the
unimodal and bimodal contrastive learning to train function-level code semantic
representations, specifically for the code search task. For unimodal
contrastive learning, we design a semantic-guided method to build positive code
pairs based on the documentation and function name. For bimodal contrastive
learning, we leverage the documentation and in-line comments of code to build
text-code pairs. Both contrastive objectives can fully leverage the large-scale
code corpus for pre-training. Experimental results on several public
benchmarks, (i.e., CodeSearch, CoSQA, etc.) demonstrate the effectiveness of
CodeRetriever in the zero-shot setting. By fine-tuning with domain/language
specified downstream data, CodeRetriever achieves the new state-of-the-art
performance with significant improvement over existing code pre-trained models.
We will make the code, model checkpoint, and constructed datasets publicly
available.
- Abstract(参考訳): 本稿では,関数レベルのコードセマンティック表現,特にコード検索タスクを訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習には、ドキュメントとコードのインラインコメントを活用してテキストコードペアを構築します。
どちらのコントラスト目的も、事前トレーニングのために大規模なコードコーパスを完全に活用することができる。
いくつかの公開ベンチマーク(CodeSearch、CoSQAなど)の実験結果は、ゼロショット設定におけるCodeRetrieverの有効性を示している。
ドメイン/言語指定の下流データで微調整することで、CodeRetrieverは、既存のコードトレーニング済みモデルよりも大幅に改善された、新しい最先端のパフォーマンスを実現する。
コード、モデルチェックポイント、構築されたデータセットを一般公開します。
関連論文リスト
- CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - Self-Supervised Contrastive Learning for Code Retrieval and
Summarization via Semantic-Preserving Transformations [28.61567319928316]
Corderは、ソースコードモデルのための自己教師付きコントラスト学習フレームワークである。
重要なイノベーションは、ソースコードモデルをトレーニングし、類似した、異種のコードスニペットを認識するように要求することです。
Corderで事前訓練されたコードモデルは、コード・ツー・コード検索、テキスト・ツー・コード検索、およびコード・ツー・テキスト要約タスクにおいて、他のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-09-06T13:31:16Z) - Leveraging Code Generation to Improve Code Retrieval and Summarization
via Dual Learning [18.354352985591305]
コード要約は、ソースコードスニペットが与えられた短い自然言語記述を生成し、コード検索は、自然言語クエリが与えられた関連するソースコードを取得する。
最近の研究は、これらの2つのタスクを組み合わせてパフォーマンスを改善している。
本稿では,新たなコード生成タスクを導入することによって,2つのタスクのエンド・ツー・エンド・モデルを提案する。
論文 参考訳(メタデータ) (2020-02-24T12:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。