論文の概要: CoTexT: Multi-task Learning with Code-Text Transformer
- arxiv url: http://arxiv.org/abs/2105.08645v1
- Date: Tue, 18 May 2021 16:22:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 15:44:29.883637
- Title: CoTexT: Multi-task Learning with Code-Text Transformer
- Title(参考訳): CoTexT: Code-Text Transformerによるマルチタスク学習
- Authors: Long Phan, Hieu Tran, Daniel Le, Hieu Nguyen, James Anibal, Alec
Peltekian, and Yanfang Ye
- Abstract要約: CoTexTはトランスフォーマーベースのアーキテクチャエンコーダデコーダプリトレーニングモデルです。
マルチタスク学習を通じて自然言語(NL)とプログラミング言語(PL)の代表的な文脈を学習する。
- 参考スコア(独自算出の注目度): 9.759982178038436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present CoTexT, a transformer-based architecture encoder-decoder
pre-trained model that learns the representative context between natural
language (NL) and programming language (PL) through multi-task learning. CoTexT
is pre-trained, in self-supervised fashion, based on large programming language
corpus to learn general-purpose understanding and code-text generation
supporting downstream NL-PL task such as code summarizing/documentation, code
generation, defect detection, code debugging, etc. We train CoTexT on different
combination of available PL corpus including both "bimodal" and "unimodal" data
where the former is the combinations of both natural texts and their
corresponding code snippets in an input sequence and the latter is merely code
snippets. We evaluate multi-task learning CoTexT on different generation and
classification tasks on CodeXGLUE and it achieves state-of-the-art on all
downstream tasks.
- Abstract(参考訳): マルチタスク学習を通じて自然言語(NL)とプログラミング言語(PL)の代表的な文脈を学習するトランスフォーマーベースのアーキテクチャエンコーダデコーダモデルであるCoTexTを提案する。
CoTexTは、コード要約/文書化、コード生成、欠陥検出、コードデバッギングなど、下流のNL-PLタスクをサポートする汎用的な理解とコードテキスト生成を学ぶために、大規模なプログラミング言語コーパスに基づいて、自己管理型で事前訓練されている。
我々は、CoTexTを利用可能なPLコーパスの異なる組み合わせで訓練する。これは、"bimodal"データと"unimodal"データの両方で、後者は、入力シーケンス内の自然文と対応するコードスニペットの組み合わせであり、後者は単なるコードスニペットである。
マルチタスク学習のCoTexTをCodeXGLUE上で生成・分類タスクで評価し,すべての下流タスクで最先端を実現する。
関連論文リスト
- TransformCode: A Contrastive Learning Framework for Code Embedding via Subtree Transformation [9.477734501499274]
コード埋め込みを対照的な学習方法で学習する新しいフレームワークであるTransformCodeを提案する。
我々のフレームワークはエンコーダに依存しない言語に依存しないので、どんなエンコーダモデルでも活用でき、どんなプログラミング言語でも扱える。
論文 参考訳(メタデータ) (2023-11-10T09:05:23Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for
Code Understanding and Generation [36.47905744758698]
我々は、開発者が指定した識別子から伝達されるコードセマンティクスをよりよく活用する、事前訓練されたエンコーダ-デコーダ変換モデルであるCodeT5を提案する。
我々のモデルは、コード理解と生成タスクの両方をシームレスにサポートし、マルチタスク学習を可能にする統一的なフレームワークを採用している。
論文 参考訳(メタデータ) (2021-09-02T12:21:06Z) - Scheduled Sampling in Vision-Language Pretraining with Decoupled
Encoder-Decoder Network [99.03895740754402]
本稿では,2つの切り離されたクロスモーダルエンコーダとデコーダが関与するエンコーダ・デコーダ構造の2ストリーム分離設計を提案する。
その代替として,2パス方式でエンコーダデコーダを事前学習することで,そのような不一致を緩和する一次サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-27T17:36:57Z) - CoreGen: Contextualized Code Representation Learning for Commit Message
Generation [39.383390029545865]
コミットメッセージ生成(CoreGen)のためのコンテキスト適応型コード表現学習戦略を提案する。
ベンチマークデータセットの実験では、BLEU-4スコアの少なくとも28.18%の改善により、ベースラインモデルよりもモデルの有効性が向上した。
論文 参考訳(メタデータ) (2020-07-14T09:43:26Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z) - Leveraging Code Generation to Improve Code Retrieval and Summarization
via Dual Learning [18.354352985591305]
コード要約は、ソースコードスニペットが与えられた短い自然言語記述を生成し、コード検索は、自然言語クエリが与えられた関連するソースコードを取得する。
最近の研究は、これらの2つのタスクを組み合わせてパフォーマンスを改善している。
本稿では,新たなコード生成タスクを導入することによって,2つのタスクのエンド・ツー・エンド・モデルを提案する。
論文 参考訳(メタデータ) (2020-02-24T12:26:11Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。