論文の概要: CoreGen: Contextualized Code Representation Learning for Commit Message
Generation
- arxiv url: http://arxiv.org/abs/2007.06934v3
- Date: Mon, 21 Jun 2021 08:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 14:06:45.377847
- Title: CoreGen: Contextualized Code Representation Learning for Commit Message
Generation
- Title(参考訳): CoreGen: コミットメッセージ生成のためのコンテキストコード表現学習
- Authors: Lun Yiu Nie, Cuiyun Gao, Zhicong Zhong, Wai Lam, Yang Liu and Zenglin
Xu
- Abstract要約: コミットメッセージ生成(CoreGen)のためのコンテキスト適応型コード表現学習戦略を提案する。
ベンチマークデータセットの実験では、BLEU-4スコアの少なくとも28.18%の改善により、ベースラインモデルよりもモデルの有効性が向上した。
- 参考スコア(独自算出の注目度): 39.383390029545865
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic generation of high-quality commit messages for code commits can
substantially facilitate software developers' works and coordination. However,
the semantic gap between source code and natural language poses a major
challenge for the task. Several studies have been proposed to alleviate the
challenge but none explicitly involves code contextual information during
commit message generation. Specifically, existing research adopts static
embedding for code tokens, which maps a token to the same vector regardless of
its context. In this paper, we propose a novel Contextualized code
representation learning strategy for commit message Generation (CoreGen).
CoreGen first learns contextualized code representations which exploit the
contextual information behind code commit sequences. The learned
representations of code commits built upon Transformer are then fine-tuned for
downstream commit message generation. Experiments on the benchmark dataset
demonstrate the superior effectiveness of our model over the baseline models
with at least 28.18% improvement in terms of BLEU-4 score. Furthermore, we also
highlight the future opportunities in training contextualized code
representations on larger code corpus as a solution to low-resource tasks and
adapting the contextualized code representation framework to other code-to-text
generation tasks.
- Abstract(参考訳): コードコミットのための高品質なコミットメッセージの自動生成は、ソフトウェア開発者の作業と調整を大幅に促進します。
しかし、ソースコードと自然言語の間のセマンティックギャップは、タスクにとって大きな課題となる。
課題を緩和するためにいくつかの研究が提案されているが、コミットメッセージ生成中に明示的にコードコンテキスト情報を含むものはない。
具体的には、既存の研究ではコードトークンに静的埋め込みを採用しており、コンテキストに関係なくトークンを同じベクターにマップしている。
本稿では,コミットメッセージ生成(CoreGen)のためのコンテキスト適応型コード表現学習戦略を提案する。
CoreGenはまず、コードコミットシーケンスの背後にあるコンテキスト情報を利用する、コンテキスト化されたコード表現を学ぶ。
Transformer上に構築されたコードコミットの学習された表現は、下流のコミットメッセージ生成のために微調整される。
ベンチマークデータセットにおける実験は、bleu-4スコアで少なくとも28.18%改善したベースラインモデルよりも優れた効果を示している。
さらに、低リソースタスクに対するソリューションとして、より大きなコードコーパスでコンテキスト化されたコード表現をトレーニングし、コンテキスト化されたコード表現フレームワークを他のコードからテキストへの生成タスクに適用する今後の機会についても強調する。
関連論文リスト
- CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - A Syntax-Guided Multi-Task Learning Approach for Turducken-Style Code
Generation [19.489202790935902]
本稿では,構文誘導型マルチタスク学習手法TurduckenGenを提案する。
具体的には、まず最初に型情報をコードトークンに明示的に付加し、構文制約の表現をキャプチャします。
次に,構文制約表現を用いたコード生成を補助タスクとして形式化し,モデルの構文制約学習を可能にする。
論文 参考訳(メタデータ) (2023-03-09T06:22:07Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - ECMG: Exemplar-based Commit Message Generation [45.54414179533286]
コミットメッセージは、コード差分の内容(つまり、コードの変更)とそれらの背後にある意図を簡潔に記述する。
情報検索ベースの手法は、類似のコードdiffsのコミットメッセージを再利用し、ニューラルベースの手法は、コードdiffsとコミットメッセージ間のセマンティックな接続を学習する。
本稿では、類似のコミットメッセージを例に扱い、ニューラルネットワークモデルを誘導して正確なコミットメッセージを生成する、新しい例ベースのニューラルコミットメッセージ生成モデルを提案する。
論文 参考訳(メタデータ) (2022-03-05T10:55:15Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained
Model [23.947178895479464]
CLSEBERTは,構文強化符号事前学習モデルのための構築学習フレームワークである。
事前学習段階では、抽象構文木(AST)に含まれるコード構文と階層について検討する。
ひとつは抽象構文木内のノード間のエッジを予測することであり、もう一つはコードトークンの型を予測することである。
論文 参考訳(メタデータ) (2021-08-10T10:08:21Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z) - Leveraging Code Generation to Improve Code Retrieval and Summarization
via Dual Learning [18.354352985591305]
コード要約は、ソースコードスニペットが与えられた短い自然言語記述を生成し、コード検索は、自然言語クエリが与えられた関連するソースコードを取得する。
最近の研究は、これらの2つのタスクを組み合わせてパフォーマンスを改善している。
本稿では,新たなコード生成タスクを導入することによって,2つのタスクのエンド・ツー・エンド・モデルを提案する。
論文 参考訳(メタデータ) (2020-02-24T12:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。