論文の概要: DeepSumm -- Deep Code Summaries using Neural Transformer Architecture
- arxiv url: http://arxiv.org/abs/2004.00998v1
- Date: Tue, 31 Mar 2020 22:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 00:13:19.222910
- Title: DeepSumm -- Deep Code Summaries using Neural Transformer Architecture
- Title(参考訳): deepsumm --neural transformerアーキテクチャを用いたディープコード要約
- Authors: Vivek Gupta
- Abstract要約: 我々はソースコード要約の課題を解決するためにニューラルネットワークを用いる。
2.1m以上のコメントとコードの教師付きサンプルで、トレーニング時間を50%以上短縮します。
- 参考スコア(独自算出の注目度): 8.566457170664927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Source code summarizing is a task of writing short, natural language
descriptions of source code behavior during run time. Such summaries are
extremely useful for software development and maintenance but are expensive to
manually author,hence it is done for small fraction of the code that is
produced and is often ignored. Automatic code documentation can possibly solve
this at a low cost. This is thus an emerging research field with further
applications to program comprehension, and software maintenance. Traditional
methods often relied on cognitive models that were built in the form of
templates and by heuristics and had varying degree of adoption by the developer
community. But with recent advancements, end to end data-driven approaches
based on neural techniques have largely overtaken the traditional techniques.
Much of the current landscape employs neural translation based architectures
with recurrence and attention which is resource and time intensive training
procedure. In this paper, we employ neural techniques to solve the task of
source code summarizing and specifically compare NMT based techniques to more
simplified and appealing Transformer architecture on a dataset of Java methods
and comments. We bring forth an argument to dispense the need of recurrence in
the training procedure. To the best of our knowledge, transformer based models
have not been used for the task before. With supervised samples of more than
2.1m comments and code, we reduce the training time by more than 50% and
achieve the BLEU score of 17.99 for the test set of examples.
- Abstract(参考訳): ソースコードの要約は、実行中のソースコードの振る舞いを簡潔で自然言語で記述するタスクである。
このような要約はソフトウェア開発やメンテナンスには非常に有用だが、手作業で書くのに高価である。
自動的なコードドキュメンテーションは、これを低コストで解決できる。
これは、プログラム理解やソフトウェアのメンテナンスのためのさらなる応用を含む、新たな研究分野である。
従来の手法はテンプレートやヒューリスティックスによって構築された認知モデルに依存しており、開発者コミュニティによる採用度は様々である。
しかし、最近の進歩により、ニューラルネットワークに基づくエンドツーエンドのデータ駆動アプローチが従来の手法を大きく上回っている。
現在のランドスケープの多くは、リソースと時間集約的なトレーニング手順である繰り返しと注意を伴うニューラルネットワークベースのアーキテクチャを採用している。
本稿では,NMTに基づく手法を要約し,特にJavaメソッドやコメントのデータセット上で,よりシンプルで魅力的なTransformerアーキテクチャと比較するために,ニューラルネットワークを用いる。
我々は,訓練手順における再発の必要をなくすための議論を提起する。
我々の知る限りでは、トランスフォーマーベースのモデルがこのタスクに使われていない。
2.1m以上のコメントとコードの教師ありサンプルで、トレーニング時間を50%以上削減し、テストセットのテストで17.99のbleuスコアを達成します。
関連論文リスト
- Zero-Shot Code Representation Learning via Prompt Tuning [6.40875582886359]
コード表現を学習するためのゼロショットアプローチであるZecolerを提案する。
Zecolerは、事前訓練されたプログラミング言語モデルの上に構築されている。
我々はZecolerを,コードクローン検出,コード検索,メソッド名予測,コード要約,コード生成を含む5つのコードインテリジェンスタスクで評価する。
論文 参考訳(メタデータ) (2024-04-13T09:47:07Z) - TransCoder: Towards Unified Transferable Code Representation Learning Inspired by Human Skills [31.75121546422898]
本稿では,コード表現学習のためのTransCoderについて述べる。
我々は、メタラーナーとして調整可能なプレフィックスエンコーダを用いて、クロスタスクおよびクロス言語変換可能な知識をキャプチャする。
本手法は, 各種コード関連タスクの性能向上と相互強化の促進に寄与する。
論文 参考訳(メタデータ) (2023-05-23T06:59:22Z) - Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。
文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:02:04Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - Project-Level Encoding for Neural Source Code Summarization of
Subroutines [6.939768185086755]
コード要約のモデルを改善するプロジェクトレベルのエンコーダを提案する。
我々はこの表現を用いて、最先端のニューラルネットワーク要約技術のエンコーダを強化する。
論文 参考訳(メタデータ) (2021-03-22T06:01:07Z) - Retrieve and Refine: Exemplar-based Neural Comment Generation [27.90756259321855]
同様のコードスニペットのコメントはコメントの生成に役立ちます。
我々は、与えられたコード、AST、類似したコード、そして入力として見劣りする新しいセク2seqニューラルネットワークを設計する。
約200万のサンプルを含む大規模Javaコーパスに対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-10-09T09:33:10Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z) - Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。
これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。