論文の概要: Project-Level Encoding for Neural Source Code Summarization of
Subroutines
- arxiv url: http://arxiv.org/abs/2103.11599v1
- Date: Mon, 22 Mar 2021 06:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:12:56.448818
- Title: Project-Level Encoding for Neural Source Code Summarization of
Subroutines
- Title(参考訳): サブルーチンのソースコード要約のためのプロジェクトレベル符号化
- Authors: Aakash Bansal, Sakib Haque, Collin McMillan
- Abstract要約: コード要約のモデルを改善するプロジェクトレベルのエンコーダを提案する。
我々はこの表現を用いて、最先端のニューラルネットワーク要約技術のエンコーダを強化する。
- 参考スコア(独自算出の注目度): 6.939768185086755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Source code summarization of a subroutine is the task of writing a short,
natural language description of that subroutine. The description usually serves
in documentation aimed at programmers, where even brief phrase (e.g.
"compresses data to a zip file") can help readers rapidly comprehend what a
subroutine does without resorting to reading the code itself. Techniques based
on neural networks (and encoder-decoder model designs in particular) have
established themselves as the state-of-the-art. Yet a problem widely recognized
with these models is that they assume the information needed to create a
summary is present within the code being summarized itself - an assumption
which is at odds with program comprehension literature. Thus a current research
frontier lies in the question of encoding source code context into neural
models of summarization. In this paper, we present a project-level encoder to
improve models of code summarization. By project-level, we mean that we create
a vectorized representation of selected code files in a software project, and
use that representation to augment the encoder of state-of-the-art neural code
summarization techniques. We demonstrate how our encoder improves several
existing models, and provide guidelines for maximizing improvement while
controlling time and resource costs in model size.
- Abstract(参考訳): サブルーチンのソースコード要約は、そのサブルーチンの短い自然言語記述を書くタスクである。
記述は通常、短いフレーズ(例えば)でさえもプログラマを対象としたドキュメントに役立ちます。
"データをzipファイルに圧縮する") は、サブルーチンがコード自体を読むことに頼ることなく、すばやく理解するのに役立ちます。
ニューラルネットワーク(特にエンコーダ-デコーダモデル設計)に基づく技術は最先端技術として確立された。
しかし、これらのモデルで広く認識されている問題は、要約されるコードの中に要約を作成するのに必要な情報が存在していると仮定することである。
したがって、現在の研究フロンティアは、ソースコードコンテキストを要約のニューラルモデルに符号化する問題にある。
本稿では,コード要約モデルを改善するためのプロジェクトレベルエンコーダを提案する。
プロジェクトレベルでは、ソフトウェアプロジェクトで選択されたコードファイルのベクトル化表現を作成し、その表現を使用して最先端のニューラルネットワーク要約技術のエンコーダを拡張する。
我々は,エンコーダが既存のモデルをどのように改善するかを示し,モデルサイズの時間と資源コストを制御しながら改善を最大化するためのガイドラインを提供する。
関連論文リスト
- ESALE: Enhancing Code-Summary Alignment Learning for Source Code Summarization [21.886950861445122]
コード要約は、与えられたコードスニペットに対して簡潔な自然言語要約を自動的に生成することを目的としている。
本稿では,要約に焦点をあてたタスクに基づいて,コード要約を改善する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T03:06:51Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Statement-based Memory for Neural Source Code Summarization [4.024850952459758]
コードの要約は、プログラマのためのソフトウェアドキュメントの基盤となる。
近年,自動コード要約技術の研究のフロンティアとして,ニューラルネットワークの要約が登場している。
本稿では,文ベースのメモリエンコーダを提案し,学習中のフローの重要な要素を学習し,文ベースのサブルーチン表現を実現する。
論文 参考訳(メタデータ) (2023-07-21T17:04:39Z) - Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。
文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:02:04Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - StructCoder: Structure-Aware Transformer for Code Generation [13.797842927671846]
本稿では、構文とデータフローの両方をモデル化し、生成されたコードの品質を向上させる構造対応トランスフォーマーデコーダを提案する。
提案したStructCoderモデルは、コード翻訳およびテキスト・トゥ・コード生成タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-06-10T17:26:31Z) - GypSum: Learning Hybrid Representations for Code Summarization [21.701127410434914]
GypSumは、グラフアテンションニューラルネットワークと事前学習されたプログラミングと自然言語モデルを使用してハイブリッド表現を学習する、新しいディープラーニングモデルである。
本稿では,トランスフォーマーデコーダのエンコーダ-デコーダサブレイヤを変更して表現を融合させ,要約生成を容易にするデュアルコピー機構を提案する。
論文 参考訳(メタデータ) (2022-04-26T07:44:49Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。