論文の概要: M2TS: Multi-Scale Multi-Modal Approach Based on Transformer for Source
Code Summarization
- arxiv url: http://arxiv.org/abs/2203.09707v1
- Date: Fri, 18 Mar 2022 02:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:29:27.431933
- Title: M2TS: Multi-Scale Multi-Modal Approach Based on Transformer for Source
Code Summarization
- Title(参考訳): m2ts: ソースコード要約のためのトランスフォーマーに基づくマルチスケールマルチモーダルアプローチ
- Authors: Yuexiu Gao, Chen Lyu
- Abstract要約: ソースコードの要約は、コードスニペットの自然言語記述を生成することを目的としている。
ソースコード要約のためのTransformerに基づくマルチスケールマルチモーダルアプローチであるM2TSを提案する。
2つのJavaデータセットと1つのPythonデータセットで実験を行い、M2TSが現在の最先端手法より優れていることを示す実験結果を得た。
- 参考スコア(独自算出の注目度): 0.4061135251278187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Source code summarization aims to generate natural language descriptions of
code snippets. Many existing studies learn the syntactic and semantic knowledge
of code snippets from their token sequences and Abstract Syntax Trees (ASTs).
They use the learned code representations as input to code summarization
models, which can accordingly generate summaries describing source code.
Traditional models traverse ASTs as sequences or split ASTs into paths as
input. However, the former loses the structural properties of ASTs, and the
latter destroys the overall structure of ASTs. Therefore, comprehensively
capturing the structural features of ASTs in learning code representations for
source code summarization remains a challenging problem to be solved. In this
paper, we propose M2TS, a Multi-scale Multi-modal approach based on Transformer
for source code Summarization. M2TS uses a multi-scale AST feature extraction
method, which can extract the structures of ASTs more completely and accurately
at multiple local and global levels. To complement missing semantic information
in ASTs, we also obtain code token features, and further combine them with the
extracted AST features using a cross modality fusion method that not only fuses
the syntactic and contextual semantic information of source code, but also
highlights the key features of each modality. We conduct experiments on two
Java and one Python datasets, and the experimental results demonstrate that
M2TS outperforms current state-of-the-art methods. We release our code at
https://github.com/TranSMS/M2TS.
- Abstract(参考訳): ソースコードの要約は、コードスニペットの自然言語記述の生成を目的としている。
既存の多くの研究は、トークンシーケンスと抽象構文木(AST)からコードスニペットの構文的および意味的知識を学ぶ。
彼らは学習したコード表現をコード要約モデルの入力として使用し、ソースコードを記述する要約を生成する。
伝統的なモデルはASTをシーケンスとして、あるいはASTを入力としてパスに分割する。
しかし、前者はASTの構造的特性を失い、後者はASTの構造全体を破壊する。
したがって、ソースコード要約のためのコード表現を学ぶ際のASTの構造的特徴を包括的に把握することは、解決すべき課題である。
本稿では,ソースコード要約のためのTransformerに基づくマルチスケールマルチモーダルアプローチであるM2TSを提案する。
M2TSはマルチスケールのAST特徴抽出手法を用いて,複数の局所およびグローバルレベルでASTの構造をより正確に正確に抽出することができる。
ASTにおける意味情報の欠如を補うために,ソースコードの構文的・文脈的意味情報を融合するだけでなく,各モダリティの重要な特徴を強調するクロスモーダル融合法を用いて,コードトークンの特徴を抽出したAST特徴と組み合わせる。
2つのJavaデータセットと1つのPythonデータセットで実験を行い、M2TSが現在の最先端手法より優れていることを示す実験結果を得た。
コードをhttps://github.com/TranSMS/M2TSでリリースします。
関連論文リスト
- Text-like Encoding of Collaborative Information in Large Language Models for Recommendation [58.87865271693269]
BinLLMはLarge Language Models for Recommendation (LLMRec)とシームレスに連携する新しい手法である。
BinLLMは、外部モデルからの協調的な埋め込みをバイナリシーケンスに変換する。
BinLLMは、ドット決定記法を用いてバイナリシーケンスを圧縮するオプションを提供し、過度に長い長さを避ける。
論文 参考訳(メタデータ) (2024-06-05T12:45:25Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Abstract Syntax Tree for Programming Language Understanding and
Representation: How Far Are We? [23.52632194060246]
プログラミング言語の理解と表現(コード表現学習)は、ソフトウェア工学において常にホットで挑戦的なタスクである。
抽象構文木(AST)は、ソースコードの構文情報を表現し、コード表現学習で広く使われている。
コードトークンシーケンス(略してToken)ベースのコード表現とASTベースのコード表現でトレーニングされた3種類のコード関連タスクのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2023-12-01T08:37:27Z) - AST-MHSA : Code Summarization using Multi-Head Self-Attention [1.588193964339148]
本稿では,抽象構文木(AST)から意味情報を抽出するためにマルチヘッドアテンションを用いたAST-MHSAモデルを提案する。
モデルは、コードとサマリーのデータセットに基づいてトレーニングされ、生成されたサマリーとグラウンド・トゥルース・サマリーの間の損失を最小限に抑えるためにパラメータが最適化される。
論文 参考訳(メタデータ) (2023-08-10T15:43:46Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - AST-Transformer: Encoding Abstract Syntax Trees Efficiently for Code
Summarization [14.225206904493627]
木構造ASTを効率的にエンコードするAST-Transformerを提案する。
実験により、AST-Transformerは最先端技術よりも相当なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-12-02T12:57:22Z) - Improving Code Summarization with Block-wise Abstract Syntax Tree
Splitting [15.28941592388958]
ソースコードの構文構造を表現した抽象構文木(AST)がコード要約の生成をガイドするために組み込まれている。
既存のastベースのメソッドはトレーニングが困難で、不適切なコード要約を生成する。
ASTのリッチツリー形式の構文構造をフル活用したBlock-wise Abstract Syntax Tree Splitting法(BASTS)を提案する。
論文 参考訳(メタデータ) (2021-03-14T05:04:06Z) - Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。
これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。