論文の概要: CAT-probing: A Metric-based Approach to Interpret How Pre-trained Models
for Programming Language Attend Code Structure
- arxiv url: http://arxiv.org/abs/2210.04633v1
- Date: Fri, 7 Oct 2022 05:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 16:00:58.354447
- Title: CAT-probing: A Metric-based Approach to Interpret How Pre-trained Models
for Programming Language Attend Code Structure
- Title(参考訳): CAT-Probing: プログラム言語における事前学習モデルのコード構造理解のためのメトリクスベースのアプローチ
- Authors: Nuo Chen, Qiushi Sun, Renyu Zhu, Xiang Li, Xuesong Lu, and Ming Gao
- Abstract要約: 本稿では,CodePTMがコード構造にどのように対応しているかを定量的に解釈する,新しい探索手法CAT-probingを提案する。
まず、コンパイラが事前に定義したトークンタイプに基づいて入力コードシーケンスを識別し、注目スコアが小さすぎるトークンをフィルタリングする。
CATスコアが高ければ高いほど、コード構造をキャプチャするCodePTMが強化される。
- 参考スコア(独自算出の注目度): 12.074532920595683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code pre-trained models (CodePTMs) have recently demonstrated significant
success in code intelligence. To interpret these models, some probing methods
have been applied. However, these methods fail to consider the inherent
characteristics of codes. In this paper, to address the problem, we propose a
novel probing method CAT-probing to quantitatively interpret how CodePTMs
attend code structure. We first denoise the input code sequences based on the
token types pre-defined by the compilers to filter those tokens whose attention
scores are too small. After that, we define a new metric CAT-score to measure
the commonality between the token-level attention scores generated in CodePTMs
and the pair-wise distances between corresponding AST nodes. The higher the
CAT-score, the stronger ability of CodePTMs to capture code structure. We
conduct extensive experiments to integrate CAT-probing with representative
CodePTMs for different programming languages. Experimental results show the
effectiveness of CAT-probing in CodePTM interpretation. Our codes and data are
publicly available at https://github.com/nchen909/CodeAttention.
- Abstract(参考訳): CodePTM(Code Pre-trained Model)は、コードインテリジェンスにおいて大きな成功を収めた。
これらのモデルを解釈するために、いくつかの探索法が適用されている。
しかし、これらの手法はコード固有の特性を考慮できない。
本稿では,CodePTMがコード構造にどのように対応しているかを定量的に解釈する新しい探索手法CAT-probingを提案する。
まず,コンパイラが事前に定義したトークン型に基づく入力コードシーケンスを,注目度が小さすぎるトークンをフィルタリングするために,まず検討する。
その後、符号で生成されたトークンレベルの注意スコアと、対応するastノード間のペアワイズ距離の共通性を測定するための新しいメトリックcat-scoreを定義する。
CATスコアが高ければ高いほど、コード構造をキャプチャするCodePTMの強力な能力が向上する。
我々は、CAT-probingを様々なプログラミング言語のコードPTMと統合するための広範な実験を行う。
CodePTM 解釈における CAT-probing の有効性が実験的に示された。
私たちのコードとデータはhttps://github.com/nchen909/codeattention.comで公開されている。
関連論文リスト
- CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - How to get better embeddings with code pre-trained models? An empirical
study [6.220333404184779]
下流分類タスクの埋め込みを生成するために,5つの異なるコード事前訓練モデル(PTM)について検討する。
特別なトークンによって得られた埋め込みは、コードスニペット全体の意味情報を十分に集約していないことが分かりました。
PTMの事前学習と同様、コードデータとテキストデータをマージして得られるコード埋め込みの品質は低く、よりリッチなセマンティック情報を保証できない。
論文 参考訳(メタデータ) (2023-11-14T10:44:21Z) - Stochastic Code Generation [1.7205106391379026]
コード生成のために事前訓練された大きな言語モデルは、高品質のショートコードを生成するが、コヒーレントな長いコードを生成するのにしばしば苦労する。
この問題は、長文生成のための言語モデリングにも見られる。
本研究では,この手法をコード生成に適用してコヒーレンスを向上できるかを検討する。
論文 参考訳(メタデータ) (2023-04-14T00:01:05Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - An Exploratory Study on Code Attention in BERT [8.488193857572211]
コード上でのPLMの注意行動を調査し,それを自然言語と比較する。
BERT は NLP において最も注目されているトークンとは対照的に,特に識別子やセパレータといった構文上のエンティティに注意を払っている。
この発見は、NLPで使われる一般的な埋め込みを使わずに、コード固有の表現を使用することで、研究コミュニティの恩恵を受けることができる。
論文 参考訳(メタデータ) (2022-04-05T21:23:10Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained
Model [23.947178895479464]
CLSEBERTは,構文強化符号事前学習モデルのための構築学習フレームワークである。
事前学習段階では、抽象構文木(AST)に含まれるコード構文と階層について検討する。
ひとつは抽象構文木内のノード間のエッジを予測することであり、もう一つはコードトークンの型を予測することである。
論文 参考訳(メタデータ) (2021-08-10T10:08:21Z) - InferCode: Self-Supervised Learning of Code Representations by
Predicting Subtrees [17.461451218469062]
本稿では,自己言語学習機構をソースコードモデルに適用することにより,制限を克服するinfercodeを提案する。
ASTのサブツリーは、人間のラベル付けや高価なグラフ構築のオーバーヘッドなしにコード表現をトレーニングするためのラベルとして、InferCodeで扱われる。
Code2Vec、Code2Seq、ASTNNなど、同じ下流タスクに適用される以前のコード学習技術と比較して、事前に訓練されたInferCodeモデルを使用して、より高いパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2020-12-13T10:33:41Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。