論文の概要: Tram: A Token-level Retrieval-augmented Mechanism for Source Code
Summarization
- arxiv url: http://arxiv.org/abs/2305.11074v1
- Date: Thu, 18 May 2023 16:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 14:06:29.881570
- Title: Tram: A Token-level Retrieval-augmented Mechanism for Source Code
Summarization
- Title(参考訳): Tram: ソースコード要約のためのトークンレベルの検索強化メカニズム
- Authors: Tong Ye, Lingfei Wu, Tengfei Ma, Xuhong Zhang, Yangkai Du, Peiyu Liu,
Wenhai Wang, Shouling Ji
- Abstract要約: 新たなトレンドは、ニューラルモデルと外部知識を組み合わせることだ。
本稿では,バニラニューラルネットワークがより優れたコード要約を生成するのを支援するために,デコーダ側のトークンレベル検索強化機構について検討する。
- 参考スコア(独自算出の注目度): 65.54811122644607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically generating human-readable text describing the functionality of
a program is the intent of source code summarization. Although Neural Language
Models achieve significant performance in this field, an emerging trend is
combining neural models with external knowledge. Most previous approaches rely
on the sentence-level retrieval and combination paradigm (retrieval of similar
code snippets and use of the corresponding code and summary pairs) on the
encoder side. However, this paradigm is coarse-grained and cannot directly take
advantage of the high-quality retrieved summary tokens on the decoder side. In
this paper, we explore a fine-grained token-level retrieval-augmented mechanism
on the decoder side to help the vanilla neural model generate a better code
summary. Furthermore, to mitigate the limitation of token-level retrieval on
capturing contextual code semantics, we propose to integrate code semantics
into summary tokens. Extensive experiments and human evaluation reveal that our
token-level retrieval-augmented approach significantly improves performance and
is more interpretive.
- Abstract(参考訳): プログラムの機能を記述するヒューマン可読テキストの自動生成は、ソースコードの要約の意図である。
この分野ではニューラル言語モデルは大きなパフォーマンスを発揮するが、新たなトレンドはニューラルモデルと外部知識を組み合わせることである。
以前のアプローチのほとんどは、エンコーダ側の文レベルの検索と組み合わせパラダイム(類似のコードスニペットの再評価と対応するコードとサマリペアの使用)に依存している。
しかし、このパラダイムは粗い粒度であり、デコーダ側の高品質なサマリトークンを直接利用することはできない。
本稿では,デコーダ側で細粒度トークンレベルの検索誘導機構を探索し,バニラニューラルモデルがより良いコード要約を生成するのを支援する。
さらに,文脈的コードセマンティクスの取得におけるトークンレベルの検索の制限を軽減するために,コードセマンティクスを要約トークンに統合することを提案する。
広範な実験と人的評価により,トークンレベルの検索型アプローチが性能を著しく改善し,より解釈的であることが判明した。
関連論文リスト
- Challenging Decoder helps in Masked Auto-Encoder Pre-training for Dense
Passage Retrieval [10.905033385938982]
Masked Auto-Encoder (MAE) 事前トレーニングアーキテクチャが最も有望である。
本稿では,デコーダの難易度を高めるために,ポイントワイド相互情報に基づく新しいトークン重要マスキング戦略を提案する。
論文 参考訳(メタデータ) (2023-05-22T16:27:10Z) - GypSum: Learning Hybrid Representations for Code Summarization [21.701127410434914]
GypSumは、グラフアテンションニューラルネットワークと事前学習されたプログラミングと自然言語モデルを使用してハイブリッド表現を学習する、新しいディープラーニングモデルである。
本稿では,トランスフォーマーデコーダのエンコーダ-デコーダサブレイヤを変更して表現を融合させ,要約生成を容易にするデュアルコピー機構を提案する。
論文 参考訳(メタデータ) (2022-04-26T07:44:49Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Hierarchical Sketch Induction for Paraphrase Generation [79.87892048285819]
本稿では、高密度符号化の分解を学習するHRQ-VAE(Hierarchical Refinement Quantized Variational Autoencoders)を紹介する。
HRQ-VAEを用いて、入力文の構文形式を階層化の経路としてエンコードすることで、テスト時の構文スケッチをより容易に予測できる。
論文 参考訳(メタデータ) (2022-03-07T15:28:36Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Project-Level Encoding for Neural Source Code Summarization of
Subroutines [6.939768185086755]
コード要約のモデルを改善するプロジェクトレベルのエンコーダを提案する。
我々はこの表現を用いて、最先端のニューラルネットワーク要約技術のエンコーダを強化する。
論文 参考訳(メタデータ) (2021-03-22T06:01:07Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z) - Learning Syntactic and Dynamic Selective Encoding for Document
Summarization [17.666036645395845]
本稿では,文書要約のための新しいニューラルネットワークを提案する。
木を解析する選挙区解析などの構文情報をエンコードシーケンスに組み込む。
そこで本稿では,デコーダ状態のコンテキストに基づいて有能な情報を選択するための動的ゲートネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-25T01:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。