論文の概要: INSPECT: Intrinsic and Systematic Probing Evaluation for Code
Transformers
- arxiv url: http://arxiv.org/abs/2312.05092v1
- Date: Fri, 8 Dec 2023 15:21:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 14:47:46.003843
- Title: INSPECT: Intrinsic and Systematic Probing Evaluation for Code
Transformers
- Title(参考訳): INSPECT:コード変換器の本質的および体系的探索評価
- Authors: Anjan Karmakar, Romain Robbes
- Abstract要約: 我々は、ソースコードの表面、構文、構造、意味的特性を訓練する15の探索タスクを定義するためにフレームワークを使用します。
8つの事前訓練されたソースコードモデルと、ベースラインとして自然言語モデル(BERT)を探索する。
構造情報(GraphCodeBERTなど)を組み込んだモデルの方が,ソースコードの特徴をよりよく表現できることがわかった。
- 参考スコア(独自算出の注目度): 7.255653248042546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained models of source code have recently been successfully applied to
a wide variety of Software Engineering tasks; they have also seen some
practical adoption in practice, e.g. for code completion. Yet, we still know
very little about what these pre-trained models learn about source code. In
this article, we use probing--simple diagnostic tasks that do not further train
the models--to discover to what extent pre-trained models learn about specific
aspects of source code. We use an extensible framework to define 15 probing
tasks that exercise surface, syntactic, structural and semantic characteristics
of source code. We probe 8 pre-trained source code models, as well as a natural
language model (BERT) as our baseline. We find that models that incorporate
some structural information (such as GraphCodeBERT) have a better
representation of source code characteristics. Surprisingly, we find that for
some probing tasks, BERT is competitive with the source code models, indicating
that there are ample opportunities to improve source-code specific pre-training
on the respective code characteristics. We encourage other researchers to
evaluate their models with our probing task suite, so that they may peer into
the hidden layers of the models and identify what intrinsic code
characteristics are encoded.
- Abstract(参考訳): ソースコードの事前訓練されたモデルは、最近、様々なソフトウェア工学のタスクにうまく適用されている。
しかし、これらの事前学習されたモデルがソースコードについて何を学ぶのか、まだほとんど分かっていない。
本稿では,ソースコードの特定の側面について,事前学習したモデルがどのように学習するかを明らかにするため,モデルをさらに訓練しない簡易診断タスクを提案する。
拡張可能なフレームワークを使用して,ソースコードの表面,構文,構造,セマンティック特性を実行する15のプロッピングタスクを定義します。
8つの事前訓練されたソースコードモデルと、ベースラインとして自然言語モデル(BERT)を探索する。
構造情報(GraphCodeBERTなど)を組み込んだモデルの方が,ソースコードの特徴をよりよく表現できることがわかった。
意外なことに、いくつかの調査タスクでは、BERTはソースコードモデルと競合し、それぞれのコード特性に対してソースコード固有の事前トレーニングを改善する機会が十分にあることを示している。
我々は、他の研究者に、探索タスクスイートでモデルを評価することを奨励し、モデルの隠れた層を覗き込み、固有のコード特性がコード化されているかを識別できるようにします。
関連論文リスト
- Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [69.38352966504401]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Explainable AI for Pre-Trained Code Models: What Do They Learn? When
They Do Not Work? [4.573310303307945]
下流タスクの一連のソフトウェアエンジニアリング上のコードのための,最近の2つの大規模言語モデル (LLM) について検討する。
CodeBERTとGraphCodeBERTは、これらのタスクで何を学ぶか(ソースコードトークンタイプに関して、最も注意を払っている)を特定します。
モデルが期待通りに機能しない場合の一般的なパターンをいくつか示し、推奨する。
論文 参考訳(メタデータ) (2022-11-23T10:07:20Z) - NatGen: Generative pre-training by "Naturalizing" source code [18.410818213965918]
我々は,ソースコードの「成熟化」という新たな事前学習目標を提案する。
自然言語とは異なり、コードのバイモーダルでデュアルチャネルの性質により、意味論的に等価なコードを大規模に生成することができます。
私たちは、CodeT5に匹敵する最先端のパフォーマンスを達成するために、3つの生成ソフトウェアエンジニアリングタスクでモデルを微調整します。
論文 参考訳(メタデータ) (2022-06-15T15:08:29Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Probing Pretrained Models of Source Code [14.904366372190943]
一般的な事前学習モデルは、多くのアプリケーションにおいてタスク固有のモデルよりも優れていることが示されている。
事前訓練されたコードのモデルには、コード構文構造と正当性、識別子の概念、データフローと正当性、自然言語の命名に関する情報が含まれている。
論文 参考訳(メタデータ) (2022-02-16T10:26:14Z) - Contrastive Learning for Source Code with Structural and Functional
Properties [66.10710134948478]
本稿では,ソースコードの特徴に基づいて事前学習に焦点を当てた,新たな自己教師型モデルBOOSTを提案する。
私たちは、機能的に等価なコードを生成する自動化された構造誘導型コード変換アルゴリズムを採用しています。
私たちは、対照的な学習目標を通じて、機能的に等価なコードをより近く、異なるコードに近づける方法で、モデルをトレーニングします。
論文 参考訳(メタデータ) (2021-10-08T02:56:43Z) - What do pre-trained code models know about code? [9.60966128833701]
事前に訓練されたコードモデルを調べるために、プローブと呼ばれる診断タスクを使用します。
BERT(英語で事前学習)、CodeBERT(ソースコードで事前学習)、CodeBERTa(自然言語で事前学習)、GraphCodeBERT(データフローでソースコードで事前学習)について検討した。
論文 参考訳(メタデータ) (2021-08-25T16:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。