論文の概要: AST-Transformer: Encoding Abstract Syntax Trees Efficiently for Code
Summarization
- arxiv url: http://arxiv.org/abs/2112.01184v1
- Date: Thu, 2 Dec 2021 12:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 23:33:01.175024
- Title: AST-Transformer: Encoding Abstract Syntax Trees Efficiently for Code
Summarization
- Title(参考訳): AST変換器:コード要約に効率的な抽象構文木を符号化する
- Authors: Ze Tang, Chuanyi Li, Jidong Ge, Xiaoyu Shen, Zheling Zhu and Bin Luo
- Abstract要約: 木構造ASTを効率的にエンコードするAST-Transformerを提案する。
実験により、AST-Transformerは最先端技術よりも相当なマージンで優れていることが示された。
- 参考スコア(独自算出の注目度): 14.225206904493627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code summarization aims to generate brief natural language descriptions for
source code. As source code is highly structured and follows strict programming
language grammars, its Abstract Syntax Tree (AST) is often leveraged to inform
the encoder about the structural information. However, ASTs are usually much
longer than the source code. Current approaches ignore the size limit and
simply feed the whole linearized AST into the encoder. To address this problem,
we propose AST-Transformer to efficiently encode tree-structured ASTs.
Experiments show that AST-Transformer outperforms the state-of-arts by a
substantial margin while being able to reduce $90\sim95\%$ of the computational
complexity in the encoding process.
- Abstract(参考訳): コード要約は、ソースコードのための短い自然言語記述を生成することを目的としている。
ソースコードは高度に構造化されており、厳密なプログラミング言語文法に従っているため、その抽象構文木(AST)はエンコーダに構造情報を伝えるためにしばしば利用される。
しかし、ASTは通常、ソースコードよりもずっと長い。
現在のアプローチでは、サイズ制限を無視し、線形化されたAST全体をエンコーダに入力する。
この問題に対処するため,木構造ASTを効率的にエンコードするAST-Transformerを提案する。
実験により、AST-Transformerは、エンコーディングプロセスにおける計算複雑性の90\sim95\%を削減しながら、最先端のマージンをかなり上回ります。
関連論文リスト
- Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - AST-T5: Structure-Aware Pretraining for Code Generation and Understanding [12.929578932351298]
大規模言語モデル(LLM)は、コードに関連するタスクにおいて大幅に進歩しているが、多くのLLMは単純なシーケンスとしてコードを扱う。
AST-T5は、抽象構文木(AST)を利用してコード生成、トランスパイレーション、理解を向上させる新しい事前トレーニングパラダイムである。
論文 参考訳(メタデータ) (2024-01-05T06:51:08Z) - AST-MHSA : Code Summarization using Multi-Head Self-Attention [1.588193964339148]
本稿では,抽象構文木(AST)から意味情報を抽出するためにマルチヘッドアテンションを用いたAST-MHSAモデルを提案する。
モデルは、コードとサマリーのデータセットに基づいてトレーニングされ、生成されたサマリーとグラウンド・トゥルース・サマリーの間の損失を最小限に抑えるためにパラメータが最適化される。
論文 参考訳(メタデータ) (2023-08-10T15:43:46Z) - Outline, Then Details: Syntactically Guided Coarse-To-Fine Code
Generation [61.50286000143233]
ChainCoderは、Pythonコードを段階的に生成するプログラム合成言語モデルである。
自然言語記述と構文的に整合したI/Oデータサンプルを共同で符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。
論文 参考訳(メタデータ) (2023-04-28T01:47:09Z) - Understanding Long Programming Languages with Structure-Aware Sparse
Attention [32.21325784213584]
本稿では,SASA(Structure-Aware Sparse Attention Mechanism)を提案する。
SASAの主要なコンポーネントは、上位$kのスパースアテンションとAST(Abstract Syntax Tree)ベースの構造アテンションである。
CodeXGLUEタスクの実験では、SASAは競合するベースラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-27T02:50:57Z) - M2TS: Multi-Scale Multi-Modal Approach Based on Transformer for Source
Code Summarization [0.4061135251278187]
ソースコードの要約は、コードスニペットの自然言語記述を生成することを目的としている。
ソースコード要約のためのTransformerに基づくマルチスケールマルチモーダルアプローチであるM2TSを提案する。
2つのJavaデータセットと1つのPythonデータセットで実験を行い、M2TSが現在の最先端手法より優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-03-18T02:54:06Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - Improving Code Summarization with Block-wise Abstract Syntax Tree
Splitting [15.28941592388958]
ソースコードの構文構造を表現した抽象構文木(AST)がコード要約の生成をガイドするために組み込まれている。
既存のastベースのメソッドはトレーニングが困難で、不適切なコード要約を生成する。
ASTのリッチツリー形式の構文構造をフル活用したBlock-wise Abstract Syntax Tree Splitting法(BASTS)を提案する。
論文 参考訳(メタデータ) (2021-03-14T05:04:06Z) - Glushkov's construction for functional subsequential transducers [91.3755431537592]
グルシコフの構成は多くの興味深い性質を持ち、トランスデューサに適用するとさらに明らかになる。
正規表現の特別な風味を導入し、効率よく$epsilon$-free 機能的次数重み付き有限状態トランスデューサに変換することができる。
論文 参考訳(メタデータ) (2020-08-05T17:09:58Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。