Fugu-MT 論文翻訳(概要): Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization

論文の概要: Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization

arxiv url: http://arxiv.org/abs/2305.11074v1
Date: Thu, 18 May 2023 16:02:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-19 14:06:29.881570
Title: Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization
Title（参考訳）: Tram: ソースコード要約のためのトークンレベルの検索強化メカニズム
Authors: Tong Ye, Lingfei Wu, Tengfei Ma, Xuhong Zhang, Yangkai Du, Peiyu Liu, Wenhai Wang, Shouling Ji
Abstract要約: 新たなトレンドは、ニューラルモデルと外部知識を組み合わせることだ。本稿では,バニラニューラルネットワークがより優れたコード要約を生成するのを支援するために,デコーダ側のトークンレベル検索強化機構について検討する。
参考スコア（独自算出の注目度）: 65.54811122644607
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatically generating human-readable text describing the functionality of a program is the intent of source code summarization. Although Neural Language Models achieve significant performance in this field, an emerging trend is combining neural models with external knowledge. Most previous approaches rely on the sentence-level retrieval and combination paradigm (retrieval of similar code snippets and use of the corresponding code and summary pairs) on the encoder side. However, this paradigm is coarse-grained and cannot directly take advantage of the high-quality retrieved summary tokens on the decoder side. In this paper, we explore a fine-grained token-level retrieval-augmented mechanism on the decoder side to help the vanilla neural model generate a better code summary. Furthermore, to mitigate the limitation of token-level retrieval on capturing contextual code semantics, we propose to integrate code semantics into summary tokens. Extensive experiments and human evaluation reveal that our token-level retrieval-augmented approach significantly improves performance and is more interpretive.
Abstract（参考訳）: プログラムの機能を記述するヒューマン可読テキストの自動生成は、ソースコードの要約の意図である。この分野ではニューラル言語モデルは大きなパフォーマンスを発揮するが、新たなトレンドはニューラルモデルと外部知識を組み合わせることである。以前のアプローチのほとんどは、エンコーダ側の文レベルの検索と組み合わせパラダイム(類似のコードスニペットの再評価と対応するコードとサマリペアの使用)に依存している。しかし、このパラダイムは粗い粒度であり、デコーダ側の高品質なサマリトークンを直接利用することはできない。本稿では,デコーダ側で細粒度トークンレベルの検索誘導機構を探索し,バニラニューラルモデルがより良いコード要約を生成するのを支援する。さらに,文脈的コードセマンティクスの取得におけるトークンレベルの検索の制限を軽減するために,コードセマンティクスを要約トークンに統合することを提案する。広範な実験と人的評価により,トークンレベルの検索型アプローチが性能を著しく改善し,より解釈的であることが判明した。

関連論文リスト

Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings [78.05609552686053]
この研究は、テキストエンコーダの観察された制限に焦点を当てている。埋め込みはセマンティクス内のきめ細かいエンティティやイベントを認識できない可能性がある。我々は中国語で新しい評価データセットであるCapRetrievalを紹介し、その文節は画像キャプションであり、クエリは様々な形式のエンティティやイベントを問うフレーズである。ゼロショット評価は、トレーニングソースやモデルサイズに関わらず、エンコーダがこれらのきめ細かいマッチングで失敗する可能性があることを示唆している。
論文参考訳（メタデータ） (2025-06-10T09:00:33Z)
$ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文参考訳（メタデータ） (2024-10-05T08:27:53Z)
Challenging Decoder helps in Masked Auto-Encoder Pre-training for Dense Passage Retrieval [10.905033385938982]
Masked Auto-Encoder (MAE) 事前トレーニングアーキテクチャが最も有望である。本稿では,デコーダの難易度を高めるために,ポイントワイド相互情報に基づく新しいトークン重要マスキング戦略を提案する。
論文参考訳（メタデータ） (2023-05-22T16:27:10Z)
GypSum: Learning Hybrid Representations for Code Summarization [21.701127410434914]
GypSumは、グラフアテンションニューラルネットワークと事前学習されたプログラミングと自然言語モデルを使用してハイブリッド表現を学習する、新しいディープラーニングモデルである。本稿では,トランスフォーマーデコーダのエンコーダ-デコーダサブレイヤを変更して表現を融合させ,要約生成を容易にするデュアルコピー機構を提案する。
論文参考訳（メタデータ） (2022-04-26T07:44:49Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
Hierarchical Sketch Induction for Paraphrase Generation [79.87892048285819]
本稿では、高密度符号化の分解を学習するHRQ-VAE(Hierarchical Refinement Quantized Variational Autoencoders)を紹介する。 HRQ-VAEを用いて、入力文の構文形式を階層化の経路としてエンコードすることで、テスト時の構文スケッチをより容易に予測できる。
論文参考訳（メタデータ） (2022-03-07T15:28:36Z)
TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文参考訳（メタデータ） (2021-04-16T17:55:28Z)
Project-Level Encoding for Neural Source Code Summarization of Subroutines [6.939768185086755]
コード要約のモデルを改善するプロジェクトレベルのエンコーダを提案する。我々はこの表現を用いて、最先端のニューラルネットワーク要約技術のエンコーダを強化する。
論文参考訳（メタデータ） (2021-03-22T06:01:07Z)
Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文参考訳（メタデータ） (2020-10-07T21:02:41Z)
A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文参考訳（メタデータ） (2020-05-01T23:29:36Z)
Learning Syntactic and Dynamic Selective Encoding for Document Summarization [17.666036645395845]
本稿では,文書要約のための新しいニューラルネットワークを提案する。木を解析する選挙区解析などの構文情報をエンコードシーケンスに組み込む。そこで本稿では,デコーダ状態のコンテキストに基づいて有能な情報を選択するための動的ゲートネットワークを提案する。
論文参考訳（メタデータ） (2020-03-25T01:29:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。