論文の概要: RAG-Enhanced Commit Message Generation
- arxiv url: http://arxiv.org/abs/2406.05514v3
- Date: Thu, 03 Oct 2024 17:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-05 03:34:37.616938
- Title: RAG-Enhanced Commit Message Generation
- Title(参考訳): RAG強化コミットメッセージ生成
- Authors: Linghao Zhang, Hongyi Zhang, Chong Wang, Peng Liang,
- Abstract要約: コミットメッセージ生成は研究ホットスポットになっている。
手動でコミットメッセージを書くのに時間がかかります。
本稿では,Retrieval-Augmented framework for CommiTメッセージ生成のためのREACTを提案する。
- 参考スコア(独自算出の注目度): 8.858678357308726
- License:
- Abstract: Commit message is one of the most important textual information in software development and maintenance. However, it is time-consuming to write commit messages manually. Commit Message Generation (CMG) has become a research hotspot. Recently, several pre-trained language models (PLMs) and large language models (LLMs) with code capabilities have been introduced, demonstrating impressive performance on code-related tasks. Meanwhile, prior studies have explored the utilization of retrieval techniques for CMG, but it is still unclear what effects would emerge from combining advanced retrieval techniques with various generation models. This paper proposed REACT, a REtrieval-Augmented framework for CommiT message generation. It integrates advanced retrieval techniques with different PLMs and LLMs, to enhance the performance of these models on the CMG task. Specifically, a hybrid retriever is designed and used to retrieve the most relevant code diff and commit message pair as an exemplar. Then, the retrieved pair is utilized to guide and enhance the CMG task by PLMs and LLMs through fine-tuning and in-context learning. The experimental results show that REACT significantly enhances these models' performance on the CMG task, improving the BLEU score of CodeT5 by up to 55%, boosting Llama 3's BLEU score by 102%, and substantially surpassing all baselines.
- Abstract(参考訳): コミットメッセージは、ソフトウェア開発とメンテナンスにおいて最も重要なテキスト情報のひとつです。
しかし、手動でコミットメッセージを書くのに時間がかかる。
コミットメッセージ生成(CMG)は研究ホットスポットとなっている。
近年,コード機能を備えた事前学習型言語モデル (PLM) と大規模言語モデル (LLM) がいくつか導入され,コード関連タスクのパフォーマンスが著しく向上している。
一方、従来の研究では、CMGの検索技術の利用について検討されてきたが、先進的な検索技術と様々な世代モデルを組み合わせることでどのような効果が生じるのかは、いまだ不明である。
本稿では,Retrieval-Augmented framework for CommiTメッセージ生成のためのREACTを提案する。
CMGタスクでこれらのモデルの性能を向上させるため、異なるPLMとLCMを併用した高度な検索手法を組み込んだ。
具体的には、ハイブリッドレトリバーを設計し、最も関連性の高いコードdiffとコミットメッセージペアを例示として検索する。
次に、検索したペアを用いて、微調整およびテキスト内学習により、PLMとLCMによるCMGタスクをガイドし、強化する。
実験の結果、REACTはこれらのモデルの性能を大幅に向上させ、CodeT5のBLEUスコアを最大55%向上させ、Llama 3のBLEUスコアを102%向上させ、全てのベースラインを大幅に上回った。
関連論文リスト
- Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
コミットメッセージ生成は、ソフトウェアエンジニアリングにおいて重要なタスクであり、正しく評価することが難しい。
オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。
その結果,編集距離が最も高い相関を示すのに対し,BLEUやMETEORなどの類似度は低い相関を示すことがわかった。
論文 参考訳(メタデータ) (2024-10-15T20:32:07Z) - Instructive Code Retriever: Learn from Large Language Model's Feedback for Code Intelligence Tasks [10.867880635762395]
Instructive Code Retriever (ICR) という新しいアプローチを導入する。
ICRは、さまざまなコードインテリジェンスタスクやデータセットにわたるモデル推論を強化するサンプルを取得するように設計されている。
我々は,コード要約,プログラム合成,バグ修正など,様々なタスクにおけるモデルの有効性を評価する。
論文 参考訳(メタデータ) (2024-10-15T05:44:00Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Sequencing Matters: A Generate-Retrieve-Generate Model for Building
Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。
提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。
我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文 参考訳(メタデータ) (2023-11-16T02:37:58Z) - Enhancing Text-based Knowledge Graph Completion with Zero-Shot Large Language Models: A Focus on Semantic Enhancement [8.472388165833292]
KGC(CP-KGC)のための制約付きプロンプトというフレームワークを導入する。
このフレームワークは、セマンティック・リッチネスを高めるために、異なるデータセットに適応するプロンプトを設計する。
本研究は,既存のモデルの性能限界を拡張し,KGCと大規模言語モデルとのさらなる統合を促進する。
論文 参考訳(メタデータ) (2023-10-12T12:31:23Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。