論文の概要: GypSum: Learning Hybrid Representations for Code Summarization
- arxiv url: http://arxiv.org/abs/2204.12916v1
- Date: Tue, 26 Apr 2022 07:44:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 04:35:36.197805
- Title: GypSum: Learning Hybrid Representations for Code Summarization
- Title(参考訳): GypSum: コード要約のためのハイブリッド表現の学習
- Authors: Yu Wang, Yu Dong, Xuesong Lu, Aoying Zhou
- Abstract要約: GypSumは、グラフアテンションニューラルネットワークと事前学習されたプログラミングと自然言語モデルを使用してハイブリッド表現を学習する、新しいディープラーニングモデルである。
本稿では,トランスフォーマーデコーダのエンコーダ-デコーダサブレイヤを変更して表現を融合させ,要約生成を容易にするデュアルコピー機構を提案する。
- 参考スコア(独自算出の注目度): 21.701127410434914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code summarization with deep learning has been widely studied in recent
years. Current deep learning models for code summarization generally follow the
principle in neural machine translation and adopt the encoder-decoder
framework, where the encoder learns the semantic representations from source
code and the decoder transforms the learnt representations into human-readable
text that describes the functionality of code snippets. Despite they achieve
the new state-of-the-art performance, we notice that current models often
either generate less fluent summaries, or fail to capture the core
functionality, since they usually focus on a single type of code
representations. As such we propose GypSum, a new deep learning model that
learns hybrid representations using graph attention neural networks and a
pre-trained programming and natural language model. We introduce particular
edges related to the control flow of a code snippet into the abstract syntax
tree for graph construction, and design two encoders to learn from the graph
and the token sequence of source code, respectively. We modify the
encoder-decoder sublayer in the Transformer's decoder to fuse the
representations and propose a dual-copy mechanism to facilitate summary
generation. Experimental results demonstrate the superior performance of GypSum
over existing code summarization models.
- Abstract(参考訳): 近年,ディープラーニングによるコード要約が広く研究されている。
現在のコード要約のためのディープラーニングモデルは、一般的にはニューラルネットワーク翻訳の原則に従い、エンコーダ-デコーダフレームワークを採用しており、エンコーダはソースコードから意味表現を学習し、デコーダは学習表現を、コードスニペットの機能を記述する可読テキストに変換する。
新たな最先端のパフォーマンスを達成しているにも関わらず、現在のモデルでは、通常は単一のタイプのコード表現にフォーカスするため、より流動的な要約を生成するか、コア機能のキャプチャに失敗することが多いことに気付きました。
そこで我々は,グラフアテンションニューラルネットワークと事前学習プログラムと自然言語モデルを用いてハイブリッド表現を学習する新しいディープラーニングモデルであるGypSumを提案する。
グラフ構築のための抽象構文木にコードスニペットの制御フローに関連する特別なエッジを導入し、グラフから学習する2つのエンコーダとソースコードのトークンシーケンスをそれぞれ設計する。
本稿では,トランスフォーマーデコーダのエンコーダ-デコーダサブレイヤを変更して表現を融合させ,要約生成を容易にするデュアルコピー機構を提案する。
GypSumの既存のコード要約モデルよりも優れた性能を示す実験結果が得られた。
関連論文リスト
- ESALE: Enhancing Code-Summary Alignment Learning for Source Code Summarization [21.886950861445122]
コード要約は、与えられたコードスニペットに対して簡潔な自然言語要約を自動的に生成することを目的としている。
本稿では,要約に焦点をあてたタスクに基づいて,コード要約を改善する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T03:06:51Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Statement-based Memory for Neural Source Code Summarization [4.024850952459758]
コードの要約は、プログラマのためのソフトウェアドキュメントの基盤となる。
近年,自動コード要約技術の研究のフロンティアとして,ニューラルネットワークの要約が登場している。
本稿では,文ベースのメモリエンコーダを提案し,学習中のフローの重要な要素を学習し,文ベースのサブルーチン表現を実現する。
論文 参考訳(メタデータ) (2023-07-21T17:04:39Z) - Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。
文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:02:04Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - StructCoder: Structure-Aware Transformer for Code Generation [13.797842927671846]
本稿では、構文とデータフローの両方をモデル化し、生成されたコードの品質を向上させる構造対応トランスフォーマーデコーダを提案する。
提案したStructCoderモデルは、コード翻訳およびテキスト・トゥ・コード生成タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-06-10T17:26:31Z) - What Do They Capture? -- A Structural Analysis of Pre-Trained Language
Models for Source Code [32.345301158791045]
ソースコードの事前訓練された言語モデルは、コードのコンテキストをモデル化するために提案されている。
これらのモデルは、マスク付き事前トレーニングとトランスフォーマーを利用する。
これらのモデルがなぜ機能するのか、どのような特徴相関を捉えることができるのかは不明だ。
論文 参考訳(メタデータ) (2022-02-14T16:22:10Z) - Project-Level Encoding for Neural Source Code Summarization of
Subroutines [6.939768185086755]
コード要約のモデルを改善するプロジェクトレベルのエンコーダを提案する。
我々はこの表現を用いて、最先端のニューラルネットワーク要約技術のエンコーダを強化する。
論文 参考訳(メタデータ) (2021-03-22T06:01:07Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。