論文の概要: How to get better embeddings with code pre-trained models? An empirical
study
- arxiv url: http://arxiv.org/abs/2311.08066v1
- Date: Tue, 14 Nov 2023 10:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 14:41:19.247659
- Title: How to get better embeddings with code pre-trained models? An empirical
study
- Title(参考訳): 事前トレーニングされたモデルにもっとうまく組み込むには?
実証的研究
- Authors: Yu Zhao and Lina Gong and Haoxiang Zhang and Yaoshen Yu and Zhiqiu
Huang
- Abstract要約: 下流分類タスクの埋め込みを生成するために,5つの異なるコード事前訓練モデル(PTM)について検討する。
特別なトークンによって得られた埋め込みは、コードスニペット全体の意味情報を十分に集約していないことが分かりました。
PTMの事前学習と同様、コードデータとテキストデータをマージして得られるコード埋め込みの品質は低く、よりリッチなセマンティック情報を保証できない。
- 参考スコア(独自算出の注目度): 6.220333404184779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models have demonstrated powerful capabilities in the
field of natural language processing (NLP). Recently, code pre-trained model
(PTM), which draw from the experiences of the NLP field, have also achieved
state-of-the-art results in many software engineering (SE) downstream tasks.
These code PTMs take into account the differences between programming languages
and natural languages during pre-training and make adjustments to pre-training
tasks and input data. However, researchers in the SE community still inherit
habits from the NLP field when using these code PTMs to generate embeddings for
SE downstream classification tasks, such as generating semantic embeddings for
code snippets through special tokens and inputting code and text information in
the same way as pre-training the PTMs. In this paper, we empirically study five
different PTMs (i.e. CodeBERT, CodeT5, PLBART, CodeGPT and CodeGen) with three
different architectures (i.e. encoder-only, decoder-only and encoder-decoder)
on four SE downstream classification tasks (i.e. code vulnerability detection,
code clone detection, just-in-time defect prediction and function docstring
mismatch detection) with respect to the two aforementioned aspects. Our
experimental results indicate that (1) regardless of the architecture of the
code PTMs used, embeddings obtained through special tokens do not sufficiently
aggregate the semantic information of the entire code snippet; (2) the quality
of code embeddings obtained by combing code data and text data in the same way
as pre-training the PTMs is poor and cannot guarantee richer semantic
information; (3) using the method that aggregates the vector representations of
all code tokens, the decoder-only PTMs can obtain code embeddings with
semantics as rich as or even better quality than those obtained from the
encoder-only and encoder-decoder PTMs.
- Abstract(参考訳): 事前訓練された言語モデルは、自然言語処理(NLP)の分野で強力な能力を示している。
近年、NLPフィールドの経験から引き出されたコード事前学習モデル(PTM)は、多くのソフトウェア工学(SE)下流タスクにおいて最先端の結果も達成している。
これらのコードPTMは、事前学習中のプログラミング言語と自然言語の違いを考慮し、事前学習タスクと入力データを調整する。
しかし、SEコミュニティの研究者たちは、これらのコードPTMを使用して、特別なトークンを通じてコードスニペットのセマンティックな埋め込みを生成したり、PTMの事前トレーニングと同じ方法でコードやテキスト情報を入力したりといった、SE下流の分類タスクの埋め込みを生成する際に、NLPフィールドからの習慣を継承している。
本稿では,4つのサブストリーム分類タスク(コード脆弱性検出,コードクローン検出,ジャストインタイム欠陥予測,関数ドクストリングミスマッチ検出)に対して,3つの異なるアーキテクチャ(エンコーダのみ,デコーダのみ,エンコーダデコーダデコーダ)を備えた5つのptm(codebert,codet5,plbart,codegpt,codegen)を経験的に検討した。
Our experimental results indicate that (1) regardless of the architecture of the code PTMs used, embeddings obtained through special tokens do not sufficiently aggregate the semantic information of the entire code snippet; (2) the quality of code embeddings obtained by combing code data and text data in the same way as pre-training the PTMs is poor and cannot guarantee richer semantic information; (3) using the method that aggregates the vector representations of all code tokens, the decoder-only PTMs can obtain code embeddings with semantics as rich as or even better quality than those obtained from the encoder-only and encoder-decoder PTMs.
関連論文リスト
- Coding-PTMs: How to Find Optimal Code Pre-trained Models for Code Embedding in Vulnerability Detection? [30.84647604639891]
本研究では,10種類のコード PTM が生成したコード埋め込みが脆弱性検出性能に与える影響について検討する。
我々は,特定の脆弱性検出タスクに対して,エンジニアが最適なコードPTMを選択するのを支援するための推奨フレームワークであるCoding-PTMを提案する。
論文 参考訳(メタデータ) (2024-08-09T04:56:26Z) - ESALE: Enhancing Code-Summary Alignment Learning for Source Code Summarization [21.886950861445122]
コード要約は、与えられたコードスニペットに対して簡潔な自然言語要約を自動的に生成することを目的としている。
本稿では,要約に焦点をあてたタスクに基づいて,コード要約を改善する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T03:06:51Z) - Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。
以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
論文 参考訳(メタデータ) (2024-05-25T08:57:28Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - On Leveraging Encoder-only Pre-trained Language Models for Effective
Keyphrase Generation [76.52997424694767]
本研究では、キーフレーズ生成(KPG)におけるエンコーダのみの事前学習言語モデル(PLM)の適用について述べる。
エンコーダのみの PLM では、条件付きランダムフィールドを持つ KPE は、現在のキーフレーズの同定においてわずかに優れているが、KPG の定式化はキーフレーズの予測の幅広いスペクトルを表現している。
また,エンコーダのみの PLM を用いたエンコーダデコーダアーキテクチャを用いる場合,幅よりもモデル深度に対するパラメータ割り当てが望ましいことを示す。
論文 参考訳(メタデータ) (2024-02-21T18:57:54Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - An Exploratory Study on Code Attention in BERT [8.488193857572211]
コード上でのPLMの注意行動を調査し,それを自然言語と比較する。
BERT は NLP において最も注目されているトークンとは対照的に,特に識別子やセパレータといった構文上のエンティティに注意を払っている。
この発見は、NLPで使われる一般的な埋め込みを使わずに、コード固有の表現を使用することで、研究コミュニティの恩恵を受けることができる。
論文 参考訳(メタデータ) (2022-04-05T21:23:10Z) - CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for
Code Understanding and Generation [36.47905744758698]
我々は、開発者が指定した識別子から伝達されるコードセマンティクスをよりよく活用する、事前訓練されたエンコーダ-デコーダ変換モデルであるCodeT5を提案する。
我々のモデルは、コード理解と生成タスクの両方をシームレスにサポートし、マルチタスク学習を可能にする統一的なフレームワークを採用している。
論文 参考訳(メタデータ) (2021-09-02T12:21:06Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。