Fugu-MT 論文翻訳(概要): RAG-Enhanced Commit Message Generation

論文の概要: RAG-Enhanced Commit Message Generation

arxiv url: http://arxiv.org/abs/2406.05514v2
Date: Fri, 14 Jun 2024 06:23:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 18:13:31.826419
Title: RAG-Enhanced Commit Message Generation
Title（参考訳）: RAG強化コミットメッセージ生成
Authors: Linghao Zhang, Hongyi Zhang, Chong Wang, Peng Liang,
Abstract要約: コミットメッセージ生成は、自動化ソフトウェアエンジニアリングにおける研究ホットスポットとなっている。本稿では,CommiTメッセージ生成のためのRetrieval-AugmentedフレームワークであるREACTを提案する。
参考スコア（独自算出の注目度）: 8.858678357308726
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Commit message is one of the most important textual information in software development and maintenance. However, it is time-consuming and labor-intensive to write commit messages manually. Commit Message Generation (CMG) has become a research hotspot in automated software engineering. Researchers have proposed several methods for CMG and achieved great results. In recent years, CodeBERT, CodeT5, and other Pre-trained Language Models (PLMs) for code have been proposed. These models can be easily transferred to code-related downstream tasks including CMG with simple fine-tuning and can achieve impressive performance. Moreover, Large Language Models (LLMs) with code capabilities (e.g., ChatGPT, Llama 3, Gemma) can be directly applied to various tasks by designing instruct prompts without training. This brings new possibilities to the CMG task. In this work, we propose REACT, a novel REtrieval-Augmented framework for CommiT message generation, which effectively integrates advanced retrieval techniques with different PLMs and LLMs and can broadly enhance the performance of various models on the CMG task. Specifically, we design and build a hybrid retriever to retrieve the most relevant code diff and commit message pair from the code base as an "exemplar". Then, the retrieved pair is utilized to guide and enhance the generation of commit messages by PLMs and LLMs through fine-tuning and in-context learning. Our approach is evaluated on a widely-used dataset. The experimental results show that REACT significantly enhances the performance of various models on the CMG task, improving the BLEU score of CodeT5 by up to 55%, boosting Llama 3's BLEU score by 102%, and substantially surpassing all baselines, achieving a new SOTA. This demonstrates the effectiveness and broad applicability of our framework that can enhance CMG by a large margin.
Abstract（参考訳）: コミットメッセージは、ソフトウェア開発とメンテナンスにおいて最も重要なテキスト情報のひとつです。しかし、手動でコミットメッセージを書くのに時間がかかり、労力がかかります。コミットメッセージ生成(CMG)は、自動化ソフトウェアエンジニアリングにおける研究ホットスポットとなっている。研究者はCMGのいくつかの方法を提案し、大きな成果を上げている。近年、コードのためのCodeBERT、CodeT5、その他の事前訓練言語モデル(PLM)が提案されている。これらのモデルは、単純な微調整でCMGなどのコード関連下流タスクに簡単に移行でき、優れたパフォーマンスを実現することができる。さらに、コード機能(ChatGPT、Llama 3、Gemmaなど)を持つLarge Language Models(LLM)は、トレーニングなしでインストラクションプロンプトを設計することで、様々なタスクに直接適用することができる。これにより、CMGタスクに新たな可能性をもたらす。本研究では,様々なPLMとLLMを効果的に統合し,CMGタスク上での各種モデルの性能を広範囲に向上する,新しいRetrieval-Augmented framework for CommiTメッセージ生成手法であるREACTを提案する。具体的には、コードベースから最も関連性の高いdiffとcommitメッセージペアを"例"として検索するハイブリッドレトリバーを設計し、構築する。次に、検索したペアを用いて、微調整およびテキスト内学習により、PLMとLMによるコミットメッセージの生成をガイドし、強化する。我々のアプローチは広く使われているデータセットで評価される。実験の結果、REACTはCMGタスクにおける各種モデルの性能を大幅に向上させ、CodeT5のBLEUスコアを最大55%向上させ、Llama 3のBLEUスコアを102%向上させ、全てのベースラインを大幅に上回り、新しいSOTAを実現した。このことは、CMGを大きなマージンで強化できるフレームワークの有効性と幅広い適用性を示している。

関連論文リスト

CoRaCMG: Contextual Retrieval-Augmented Framework for Commit Message Generation [17.392708936075223]
Commit Message Generationは、コード差分から記述的なコミットメッセージを自動的に生成し、開発者の労力を削減し、メッセージ品質を向上させることを目的としている。本稿では,3つのフェーズで構成されたCommit Message Generationのためのコンテキスト検索拡張フレームワークであるCoRaCMGを提案する。 CoRaCMGは、プロジェクト固有の用語やスタイルを検索したdiff-messageペアから学習することを可能にする。
論文参考訳（メタデータ） (2025-09-22T19:00:04Z)
ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。 Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文参考訳（メタデータ） (2025-03-27T23:08:53Z)
Bridging Textual-Collaborative Gap through Semantic Codes for Sequential Recommendation [91.13055384151897]
CoCoRecは、シーケンシャルレコメンデーションのための新しいコードベースのテキストおよび協調的セマンティックフュージョン法である。ベクトル量子化手法を用いて,多視点テキスト埋め込みから細粒度セマンティックコードを生成する。テキスト・コラボレーティブ・セマンティクスの融合をさらに促進するために,最適化戦略を導入する。
論文参考訳（メタデータ） (2025-03-15T15:54:44Z)
An Empirical Study on Commit Message Generation using LLMs via In-Context Learning [26.39743339039473]
コミットメッセージは、自然言語のコード変更を簡潔に記述する。我々は,大規模言語モデル (LLM) とテキスト内学習 (ICL) の武器を借りてコミットメッセージを生成することを提案する。
論文参考訳（メタデータ） (2025-02-26T07:47:52Z)
SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文参考訳（メタデータ） (2025-02-10T21:28:15Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
コミットメッセージ生成は、ソフトウェアエンジニアリングにおいて重要なタスクであり、正しく評価することが難しい。オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。その結果,編集距離が最も高い相関を示すのに対し,BLEUやMETEORなどの類似度は低い相関を示すことがわかった。
論文参考訳（メタデータ） (2024-10-15T20:32:07Z)
Instructive Code Retriever: Learn from Large Language Model's Feedback for Code Intelligence Tasks [10.867880635762395]
Instructive Code Retriever (ICR) という新しいアプローチを導入する。 ICRは、さまざまなコードインテリジェンスタスクやデータセットにわたるモデル推論を強化するサンプルを取得するように設計されている。我々は,コード要約,プログラム合成,バグ修正など,様々なタスクにおけるモデルの有効性を評価する。
論文参考訳（メタデータ） (2024-10-15T05:44:00Z)
What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文参考訳（メタデータ） (2024-09-03T13:30:00Z)
Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文参考訳（メタデータ） (2024-04-23T08:24:43Z)
Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文参考訳（メタデータ） (2024-02-28T16:35:52Z)
Sequencing Matters: A Generate-Retrieve-Generate Model for Building Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文参考訳（メタデータ） (2023-11-16T02:37:58Z)
Enhancing Text-based Knowledge Graph Completion with Zero-Shot Large Language Models: A Focus on Semantic Enhancement [8.472388165833292]
KGC(CP-KGC)のための制約付きプロンプトというフレームワークを導入する。このフレームワークは、セマンティック・リッチネスを高めるために、異なるデータセットに適応するプロンプトを設計する。本研究は,既存のモデルの性能限界を拡張し,KGCと大規模言語モデルとのさらなる統合を促進する。
論文参考訳（メタデータ） (2023-10-12T12:31:23Z)
Harnessing Explanations: LLM-to-LM Interpreter for Enhanced Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。提案手法は、確立されたTAGデータセットの最先端結果を実現する。本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文参考訳（メタデータ） (2023-05-31T03:18:03Z)
MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。 MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文参考訳（メタデータ） (2022-12-15T13:57:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。