論文の概要: EditSum: A Retrieve-and-Edit Framework for Source Code Summarization
- arxiv url: http://arxiv.org/abs/2308.13775v2
- Date: Thu, 7 Sep 2023 11:19:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 16:18:56.362135
- Title: EditSum: A Retrieve-and-Edit Framework for Source Code Summarization
- Title(参考訳): editsum: ソースコード要約のための検索および編集フレームワーク
- Authors: Jia Li, Yongmin Li, Ge Li, Xing Hu, Xin Xia, Zhi Jin
- Abstract要約: 既存の研究によると、コード要約は開発者がソースコードを理解し維持するのに役立ちます。
コード要約は、ソースコードのための自然言語記述を自動的に生成することを目的としている。
本稿では,コード要約のための新しい検索・編集手法であるEditSumを提案する。
- 参考スコア(独自算出の注目度): 46.84628094508991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing studies show that code summaries help developers understand and
maintain source code. Unfortunately, these summaries are often missing or
outdated in software projects. Code summarization aims to generate natural
language descriptions automatically for source code. Code summaries are highly
structured and have repetitive patterns. Besides the patternized words, a code
summary also contains important keywords, which are the key to reflecting the
functionality of the code. However, the state-of-the-art approaches perform
poorly on predicting the keywords, which leads to the generated summaries
suffering a loss in informativeness. To alleviate this problem, this paper
proposes a novel retrieve-and-edit approach named EditSum for code
summarization. Specifically, EditSum first retrieves a similar code snippet
from a pre-defined corpus and treats its summary as a prototype summary to
learn the pattern. Then, EditSum edits the prototype automatically to combine
the pattern in the prototype with the semantic information of input code. Our
motivation is that the retrieved prototype provides a good start-point for
post-generation because the summaries of similar code snippets often have the
same pattern. The post-editing process further reuses the patternized words in
the prototype and generates keywords based on the semantic information of input
code. We conduct experiments on a large-scale Java corpus and experimental
results demonstrate that EditSum outperforms the state-of-the-art approaches by
a substantial margin. The human evaluation also proves the summaries generated
by EditSum are more informative and useful. We also verify that EditSum
performs well on predicting the patternized words and keywords.
- Abstract(参考訳): 既存の研究によると、コード要約は開発者がソースコードを理解し維持するのに役立ちます。
残念ながら、これらの要約はソフトウェアプロジェクトで欠落したり時代遅れになったりすることが多い。
コード要約は、ソースコードのための自然言語記述を自動的に生成することを目的としている。
コード要約は高度に構造化され、反復的なパターンを持つ。
パターン化された単語の他に、コード要約には重要なキーワードが含まれており、コードの機能を反映するための鍵となる。
しかし、最先端のアプローチはキーワードの予測に乏しく、結果として生成された要約は情報不足に陥る。
この問題を軽減するために,コード要約のためのEditSumという新しい検索・編集手法を提案する。
具体的には、editsumは事前に定義されたコーパスから類似のコードスニペットを取得し、その要約をプロトタイプサマリとして扱い、パターンを学習する。
そして、EditSumがプロトタイプを自動的に編集し、プロトタイプのパターンと入力コードのセマンティック情報を組み合わせる。
私たちのモチベーションは、検索したプロトタイプがポストジェネレーションの出発点として優れたものであることです。
後編集処理は、プロトタイプのパターン化された単語をさらに再利用し、入力コードの意味情報に基づいてキーワードを生成する。
大規模なjavaコーパスで実験を行い,editsumが最先端のアプローチをかなり上回っていることを実験的に証明した。
人間の評価は、EditSumが生成した要約がより情報的で有用であることを証明している。
また、EditSumがパターン化された単語やキーワードの予測に有効であることを検証した。
関連論文リスト
- ESALE: Enhancing Code-Summary Alignment Learning for Source Code Summarization [21.886950861445122]
コード要約は、与えられたコードスニペットに対して簡潔な自然言語要約を自動的に生成することを目的としている。
本稿では,要約に焦点をあてたタスクに基づいて,コード要約を改善する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T03:06:51Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - AST-MHSA : Code Summarization using Multi-Head Self-Attention [1.588193964339148]
本稿では,抽象構文木(AST)から意味情報を抽出するためにマルチヘッドアテンションを用いたAST-MHSAモデルを提案する。
モデルは、コードとサマリーのデータセットに基づいてトレーニングされ、生成されたサマリーとグラウンド・トゥルース・サマリーの間の損失を最小限に抑えるためにパラメータが最適化される。
論文 参考訳(メタデータ) (2023-08-10T15:43:46Z) - Attributable and Scalable Opinion Summarization [79.87892048285819]
我々は、頻繁なエンコーディングを復号することで抽象的な要約を生成し、同じ頻繁なエンコーディングに割り当てられた文を選択して抽出的な要約を生成する。
本手法は,要約プロセスの一部として要約を生成するために使用される文を同定するため,帰属的手法である。
なぜなら、アグリゲーションはトークンの長いシーケンスではなく、潜在空間で実行されるからである。
論文 参考訳(メタデータ) (2023-05-19T11:30:37Z) - Outline, Then Details: Syntactically Guided Coarse-To-Fine Code
Generation [61.50286000143233]
ChainCoderは、Pythonコードを段階的に生成するプログラム合成言語モデルである。
自然言語記述と構文的に整合したI/Oデータサンプルを共同で符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。
論文 参考訳(メタデータ) (2023-04-28T01:47:09Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - An Extractive-and-Abstractive Framework for Source Code Summarization [28.553366270065656]
コード要約は、自然言語の形式で与えられたコードスニペットの要約/記事を自動的に生成することを目的としている。
そこで本研究では,人文的な要約を生成できる新しい抽出・抽象的枠組みを提案する。
論文 参考訳(メタデータ) (2022-06-15T02:14:24Z) - Retrieve and Refine: Exemplar-based Neural Comment Generation [27.90756259321855]
同様のコードスニペットのコメントはコメントの生成に役立ちます。
我々は、与えられたコード、AST、類似したコード、そして入力として見劣りする新しいセク2seqニューラルネットワークを設計する。
約200万のサンプルを含む大規模Javaコーパスに対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-10-09T09:33:10Z) - Self-Supervised Contrastive Learning for Code Retrieval and
Summarization via Semantic-Preserving Transformations [28.61567319928316]
Corderは、ソースコードモデルのための自己教師付きコントラスト学習フレームワークである。
重要なイノベーションは、ソースコードモデルをトレーニングし、類似した、異種のコードスニペットを認識するように要求することです。
Corderで事前訓練されたコードモデルは、コード・ツー・コード検索、テキスト・ツー・コード検索、およびコード・ツー・テキスト要約タスクにおいて、他のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-09-06T13:31:16Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。