論文の概要: Retrieve and Refine: Exemplar-based Neural Comment Generation
- arxiv url: http://arxiv.org/abs/2010.04459v1
- Date: Fri, 9 Oct 2020 09:33:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 06:07:33.346012
- Title: Retrieve and Refine: Exemplar-based Neural Comment Generation
- Title(参考訳): 検索とリファイン:模範に基づくニューラルコメント生成
- Authors: Bolin Wei, Yongmin Li, Ge Li, Xin Xia, Zhi Jin
- Abstract要約: 同様のコードスニペットのコメントはコメントの生成に役立ちます。
我々は、与えられたコード、AST、類似したコード、そして入力として見劣りする新しいセク2seqニューラルネットワークを設計する。
約200万のサンプルを含む大規模Javaコーパスに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 27.90756259321855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code comment generation which aims to automatically generate natural language
descriptions for source code, is a crucial task in the field of automatic
software development. Traditional comment generation methods use
manually-crafted templates or information retrieval (IR) techniques to generate
summaries for source code. In recent years, neural network-based methods which
leveraged acclaimed encoder-decoder deep learning framework to learn comment
generation patterns from a large-scale parallel code corpus, have achieved
impressive results. However, these emerging methods only take code-related
information as input. Software reuse is common in the process of software
development, meaning that comments of similar code snippets are helpful for
comment generation. Inspired by the IR-based and template-based approaches, in
this paper, we propose a neural comment generation approach where we use the
existing comments of similar code snippets as exemplars to guide comment
generation. Specifically, given a piece of code, we first use an IR technique
to retrieve a similar code snippet and treat its comment as an exemplar. Then
we design a novel seq2seq neural network that takes the given code, its AST,
its similar code, and its exemplar as input, and leverages the information from
the exemplar to assist in the target comment generation based on the semantic
similarity between the source code and the similar code. We evaluate our
approach on a large-scale Java corpus, which contains about 2M samples, and
experimental results demonstrate that our model outperforms the
state-of-the-art methods by a substantial margin.
- Abstract(参考訳): ソースコードの自然言語記述を自動的に生成することを目的としたコードコメント生成は、ソフトウェア開発における重要な課題である。
従来のコメント生成方法は、手書きのテンプレートや情報検索(IR)技術を使ってソースコードの要約を生成する。
近年,大規模並列コードコーパスからコメント生成パターンを学習するために,高評価のエンコーダ・デコーダ深層学習フレームワークを用いたニューラルネットワークベースの手法が注目されている。
しかし、これらの新興手法はコード関連の情報のみを入力とする。
ソフトウェア開発のプロセスではソフトウェアの再利用が一般的であり、同様のコードスニペットのコメントがコメント生成に役立ちます。
本稿では,irベースとテンプレートベースのアプローチに着想を得て,類似するコードスニペットの既存のコメントを例示として,コメント生成を導くニューラルコメント生成手法を提案する。
具体的には、コードの一部を考えると、ir技術を使って同様のコードスニペットを取得し、そのコメントを例示として扱う。
次に、与えられたコード、ast、その類似コード、およびその類似コードを入力として取り、その情報を利用してソースコードと類似コード間の意味的類似性に基づいてターゲットコメント生成を支援する新しいseq2seqニューラルネットワークを設計する。
我々は,約2mのサンプルを含む大規模javaコーパスのアプローチを評価し,実験結果から,本モデルが最先端手法をかなり上回っていることを実証した。
関連論文リスト
- Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。
その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。
論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文 参考訳(メタデータ) (2024-04-11T08:30:46Z) - Statement-based Memory for Neural Source Code Summarization [4.024850952459758]
コードの要約は、プログラマのためのソフトウェアドキュメントの基盤となる。
近年,自動コード要約技術の研究のフロンティアとして,ニューラルネットワークの要約が登場している。
本稿では,文ベースのメモリエンコーダを提案し,学習中のフローの重要な要素を学習し,文ベースのサブルーチン表現を実現する。
論文 参考訳(メタデータ) (2023-07-21T17:04:39Z) - Deep Learning Based Code Generation Methods: Literature Review [30.17038624027751]
本稿では、自然言語記述に従って関連するコードフラグメントを生成することを目的としたコード生成タスクに焦点を当てる。
本稿では,ディープラーニングに基づくコード生成手法に関する現在の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2023-03-02T08:25:42Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - GypSum: Learning Hybrid Representations for Code Summarization [21.701127410434914]
GypSumは、グラフアテンションニューラルネットワークと事前学習されたプログラミングと自然言語モデルを使用してハイブリッド表現を学習する、新しいディープラーニングモデルである。
本稿では,トランスフォーマーデコーダのエンコーダ-デコーダサブレイヤを変更して表現を融合させ,要約生成を容易にするデュアルコピー機構を提案する。
論文 参考訳(メタデータ) (2022-04-26T07:44:49Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - Project-Level Encoding for Neural Source Code Summarization of
Subroutines [6.939768185086755]
コード要約のモデルを改善するプロジェクトレベルのエンコーダを提案する。
我々はこの表現を用いて、最先端のニューラルネットワーク要約技術のエンコーダを強化する。
論文 参考訳(メタデータ) (2021-03-22T06:01:07Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z) - Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。
これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:42Z) - DeepSumm -- Deep Code Summaries using Neural Transformer Architecture [8.566457170664927]
我々はソースコード要約の課題を解決するためにニューラルネットワークを用いる。
2.1m以上のコメントとコードの教師付きサンプルで、トレーニング時間を50%以上短縮します。
論文 参考訳(メタデータ) (2020-03-31T22:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。