論文の概要: UniXcoder: Unified Cross-Modal Pre-training for Code Representation
- arxiv url: http://arxiv.org/abs/2203.03850v1
- Date: Tue, 8 Mar 2022 04:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 15:13:53.715014
- Title: UniXcoder: Unified Cross-Modal Pre-training for Code Representation
- Title(参考訳): unixcoder:コード表現のための統一クロスモーダル事前トレーニング
- Authors: Daya Guo, Shuai Lu, Nan Duan, Yanlin Wang, Ming Zhou, and Jian Yin
- Abstract要約: プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
- 参考スコア(独自算出の注目度): 65.6846553962117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained models for programming languages have recently demonstrated great
success on code intelligence. To support both code-related understanding and
generation tasks, recent works attempt to pre-train unified encoder-decoder
models. However, such encoder-decoder framework is sub-optimal for
auto-regressive tasks, especially code completion that requires a decoder-only
manner for efficient inference. In this paper, we present UniXcoder, a unified
cross-modal pre-trained model for programming language. The model utilizes mask
attention matrices with prefix adapters to control the behavior of the model
and leverages cross-modal contents like AST and code comment to enhance code
representation. To encode AST that is represented as a tree in parallel, we
propose a one-to-one mapping method to transform AST in a sequence structure
that retains all structural information from the tree. Furthermore, we propose
to utilize multi-modal contents to learn representation of code fragment with
contrastive learning, and then align representations among programming
languages using a cross-modal generation task. We evaluate UniXcoder on five
code-related tasks over nine datasets. To further evaluate the performance of
code fragment representation, we also construct a dataset for a new task,
called zero-shot code-to-code search. Results show that our model achieves
state-of-the-art performance on most tasks and analysis reveals that comment
and AST can both enhance UniXcoder.
- Abstract(参考訳): プログラミング言語の事前学習モデルは、最近コードインテリジェンスで大きな成功を収めた。
コード関連理解と生成タスクの両方をサポートするため、最近の研究は統合エンコーダデコーダモデルの事前訓練を試みる。
しかし、このようなエンコーダ-デコーダフレームワークは自動回帰タスク、特に効率的な推論のためにデコーダのみの方法を必要とするコード補完に最適化されている。
本稿では,プログラミング言語のための統合クロスモーダル事前学習モデルunixcoderを提案する。
このモデルは、マスクアテンション行列とプレフィックスアダプタを使ってモデルの振る舞いを制御し、ASTやコードコメントのようなクロスモーダルなコンテンツを利用してコード表現を強化する。
木として表現されるASTを並列に符号化するために,木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
さらに,マルチモーダルコンテンツを用いてコードフラグメントの表現をコントラスト学習で学習し,クロスモーダル生成タスクを用いてプログラミング言語間の表現を整合させる手法を提案する。
我々はUnixcoderを9つのデータセット上で5つのコード関連タスクで評価する。
コードフラグメント表現の性能をさらに評価するために,ゼロショットコードからコードへの検索と呼ばれる新しいタスクのためのデータセットを構築する。
その結果,本モデルがほとんどのタスクにおいて最先端のパフォーマンスを達成し,コメントとASTがUniXcoderを拡張できることが判明した。
関連論文リスト
- SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - Improving Code Search with Hard Negative Sampling Based on Fine-tuning [15.341959871682981]
本稿では,クエリとコードの結合を共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。
また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Ranker(RR)フレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文 参考訳(メタデータ) (2023-05-08T07:04:28Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for
Code Understanding and Generation [36.47905744758698]
我々は、開発者が指定した識別子から伝達されるコードセマンティクスをよりよく活用する、事前訓練されたエンコーダ-デコーダ変換モデルであるCodeT5を提案する。
我々のモデルは、コード理解と生成タスクの両方をシームレスにサポートし、マルチタスク学習を可能にする統一的なフレームワークを採用している。
論文 参考訳(メタデータ) (2021-09-02T12:21:06Z) - CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained
Model [23.947178895479464]
CLSEBERTは,構文強化符号事前学習モデルのための構築学習フレームワークである。
事前学習段階では、抽象構文木(AST)に含まれるコード構文と階層について検討する。
ひとつは抽象構文木内のノード間のエッジを予測することであり、もう一つはコードトークンの型を予測することである。
論文 参考訳(メタデータ) (2021-08-10T10:08:21Z) - InferCode: Self-Supervised Learning of Code Representations by
Predicting Subtrees [17.461451218469062]
本稿では,自己言語学習機構をソースコードモデルに適用することにより,制限を克服するinfercodeを提案する。
ASTのサブツリーは、人間のラベル付けや高価なグラフ構築のオーバーヘッドなしにコード表現をトレーニングするためのラベルとして、InferCodeで扱われる。
Code2Vec、Code2Seq、ASTNNなど、同じ下流タスクに適用される以前のコード学習技術と比較して、事前に訓練されたInferCodeモデルを使用して、より高いパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2020-12-13T10:33:41Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。