論文の概要: AST-MHSA : Code Summarization using Multi-Head Self-Attention
- arxiv url: http://arxiv.org/abs/2308.05646v1
- Date: Thu, 10 Aug 2023 15:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 11:58:32.768997
- Title: AST-MHSA : Code Summarization using Multi-Head Self-Attention
- Title(参考訳): AST-MHSA : 多頭部自己認識を用いたコード要約
- Authors: Yeshwanth Nagaraj, Ujjwal Gupta
- Abstract要約: 本稿では,抽象構文木(AST)から意味情報を抽出するためにマルチヘッドアテンションを用いたAST-MHSAモデルを提案する。
モデルは、コードとサマリーのデータセットに基づいてトレーニングされ、生成されたサマリーとグラウンド・トゥルース・サマリーの間の損失を最小限に抑えるためにパラメータが最適化される。
- 参考スコア(独自算出の注目度): 1.588193964339148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code summarization aims to generate concise natural language descriptions for
source code. The prevailing approaches adopt transformer-based encoder-decoder
architectures, where the Abstract Syntax Tree (AST) of the source code is
utilized for encoding structural information. However, ASTs are much longer
than the corresponding source code, and existing methods ignore this size
constraint by directly feeding the entire linearized AST into the encoders.
This simplistic approach makes it challenging to extract truly valuable
dependency relations from the overlong input sequence and leads to significant
computational overhead due to self-attention applied to all nodes in the AST.
To address this issue effectively and efficiently, we present a model,
AST-MHSA that uses multi-head attention to extract the important semantic
information from the AST. The model consists of two main components: an encoder
and a decoder. The encoder takes as input the abstract syntax tree (AST) of the
code and generates a sequence of hidden states. The decoder then takes these
hidden states as input and generates a natural language summary of the code.
The multi-head attention mechanism allows the model to learn different
representations of the input code, which can be combined to generate a more
comprehensive summary. The model is trained on a dataset of code and summaries,
and the parameters of the model are optimized to minimize the loss between the
generated summaries and the ground-truth summaries.
- Abstract(参考訳): コード要約は、ソースコードの簡潔な自然言語記述を生成することを目的としている。
一般的なアプローチでは、ソースコードの抽象構文木(AST)を用いて構造情報を符号化するトランスフォーマーベースのエンコーダデコーダアーキテクチャを採用している。
しかし、ASTは対応するソースコードよりもずっと長いので、既存のメソッドはこのサイズ制約を無視して、線形化されたAST全体をエンコーダに直接供給する。
この単純化されたアプローチにより、過剰な入力シーケンスから真に価値のある依存関係関係を抽出することが難しくなり、AST内の全ノードに適用される自己アテンションによる計算オーバーヘッドが大幅に増大する。
この問題を効果的かつ効率的に解決するために,マルチヘッドアテンションを用いてASTから重要な意味情報を抽出するモデルAST-MHSAを提案する。
モデルは、エンコーダとデコーダの2つの主要コンポーネントで構成される。
エンコーダは、コードの抽象構文木(AST)を入力として、隠された状態のシーケンスを生成する。
デコーダは、これらの隠された状態を入力として、コードの自然言語要約を生成する。
マルチヘッドアテンションメカニズムにより、モデルは入力コードの異なる表現を学習することができ、より包括的な要約を生成するために組み合わせることができる。
モデルはコードとサマリーのデータセットでトレーニングされ、モデルのパラメータは生成されたサマリーと基底サマリーの損失を最小限に抑えるように最適化される。
関連論文リスト
- SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - M2TS: Multi-Scale Multi-Modal Approach Based on Transformer for Source
Code Summarization [0.4061135251278187]
ソースコードの要約は、コードスニペットの自然言語記述を生成することを目的としている。
ソースコード要約のためのTransformerに基づくマルチスケールマルチモーダルアプローチであるM2TSを提案する。
2つのJavaデータセットと1つのPythonデータセットで実験を行い、M2TSが現在の最先端手法より優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-03-18T02:54:06Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - AST-Transformer: Encoding Abstract Syntax Trees Efficiently for Code
Summarization [14.225206904493627]
木構造ASTを効率的にエンコードするAST-Transformerを提案する。
実験により、AST-Transformerは最先端技術よりも相当なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-12-02T12:57:22Z) - Improving Code Summarization with Block-wise Abstract Syntax Tree
Splitting [15.28941592388958]
ソースコードの構文構造を表現した抽象構文木(AST)がコード要約の生成をガイドするために組み込まれている。
既存のastベースのメソッドはトレーニングが困難で、不適切なコード要約を生成する。
ASTのリッチツリー形式の構文構造をフル活用したBlock-wise Abstract Syntax Tree Splitting法(BASTS)を提案する。
論文 参考訳(メタデータ) (2021-03-14T05:04:06Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z) - Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。
これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。