論文の概要: What Do They Capture? -- A Structural Analysis of Pre-Trained Language
Models for Source Code
- arxiv url: http://arxiv.org/abs/2202.06840v1
- Date: Mon, 14 Feb 2022 16:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 19:02:05.091978
- Title: What Do They Capture? -- A Structural Analysis of Pre-Trained Language
Models for Source Code
- Title(参考訳): 何を捕まえる?
--ソースコードのための事前学習言語モデルの構造解析
- Authors: Yao Wan, Wei Zhao, Hongyu Zhang, Yulei Sui, Guandong Xu, Hai Jin
- Abstract要約: ソースコードの事前訓練された言語モデルは、コードのコンテキストをモデル化するために提案されている。
これらのモデルは、マスク付き事前トレーニングとトランスフォーマーを利用する。
これらのモデルがなぜ機能するのか、どのような特徴相関を捉えることができるのかは不明だ。
- 参考スコア(独自算出の注目度): 32.345301158791045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, many pre-trained language models for source code have been proposed
to model the context of code and serve as a basis for downstream code
intelligence tasks such as code completion, code search, and code
summarization. These models leverage masked pre-training and Transformer and
have achieved promising results. However, currently there is still little
progress regarding interpretability of existing pre-trained code models. It is
not clear why these models work and what feature correlations they can capture.
In this paper, we conduct a thorough structural analysis aiming to provide an
interpretation of pre-trained language models for source code (e.g., CodeBERT,
and GraphCodeBERT) from three distinctive perspectives: (1) attention analysis,
(2) probing on the word embedding, and (3) syntax tree induction. Through
comprehensive analysis, this paper reveals several insightful findings that may
inspire future studies: (1) Attention aligns strongly with the syntax structure
of code. (2) Pre-training language models of code can preserve the syntax
structure of code in the intermediate representations of each Transformer
layer. (3) The pre-trained models of code have the ability of inducing syntax
trees of code. Theses findings suggest that it may be helpful to incorporate
the syntax structure of code into the process of pre-training for better code
representations.
- Abstract(参考訳): 近年、ソースコードのコンテキストをモデル化し、コード補完、コード検索、コード要約といった下流のコードインテリジェンスタスクの基礎となるために、多くの事前学習された言語モデルが提案されている。
これらのモデルは仮装プリトレーニングとトランスフォーマーを利用し、有望な結果を得た。
しかし、既存の事前訓練されたコードモデルの解釈可能性についてはまだほとんど進歩していない。
これらのモデルがなぜ機能し、どのような機能相関を捉えられるのかは明らかではない。
本稿では,(1)注目分析,(2)単語埋め込みの探索,(3)構文木帰納の3つの視点から,ソースコード(CodeBERT,GraphCodeBERT)に対する事前学習言語モデルの解釈を提供することを目的とした,徹底的な構造解析を行う。
包括的分析を通じて,(1)コードの構文構造に強い注意を向ける,今後の研究を刺激する可能性のある洞察に富んだ知見を明らかにした。
(2) 事前学習されたコードの言語モデルは、各トランスフォーマー層の中間表現にコードの構文構造を保存できる。
3) 事前学習されたコードのモデルには,コードの構文木を誘導する能力がある。
これらの結果は、より良いコード表現のための事前学習プロセスにコードの構文構造を組み込むことが有用であることを示している。
関連論文リスト
- Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z) - Unveiling Code Pre-Trained Models: Investigating Syntax and Semantics Capacities [34.27541293716398]
コードモデルがどのようにコード構文とセマンティクスを表現するかを調べるため、7つのコードモデルを広範囲に分析する。
コード構文とセマンティクスを学習するモデルの能力を評価するための4つの探索タスクを開発した。
コード構文とセマンティクスを習得する際の様々なコードモデルの長所と短所を強調した。
論文 参考訳(メタデータ) (2022-12-20T06:15:17Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - Contrastive Learning for Source Code with Structural and Functional
Properties [66.10710134948478]
本稿では,ソースコードの特徴に基づいて事前学習に焦点を当てた,新たな自己教師型モデルBOOSTを提案する。
私たちは、機能的に等価なコードを生成する自動化された構造誘導型コード変換アルゴリズムを採用しています。
私たちは、対照的な学習目標を通じて、機能的に等価なコードをより近く、異なるコードに近づける方法で、モデルをトレーニングします。
論文 参考訳(メタデータ) (2021-10-08T02:56:43Z) - CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained
Model [23.947178895479464]
CLSEBERTは,構文強化符号事前学習モデルのための構築学習フレームワークである。
事前学習段階では、抽象構文木(AST)に含まれるコード構文と階層について検討する。
ひとつは抽象構文木内のノード間のエッジを予測することであり、もう一つはコードトークンの型を予測することである。
論文 参考訳(メタデータ) (2021-08-10T10:08:21Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。