Fugu-MT 論文翻訳(概要): RAG-Enhanced Commit Message Generation

論文の概要: RAG-Enhanced Commit Message Generation

arxiv url: http://arxiv.org/abs/2406.05514v3
Date: Thu, 03 Oct 2024 17:15:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 17:24:35.383771
Title: RAG-Enhanced Commit Message Generation
Title（参考訳）: RAG強化コミットメッセージ生成
Authors: Linghao Zhang, Hongyi Zhang, Chong Wang, Peng Liang,
Abstract要約: コミットメッセージ生成は研究ホットスポットになっている。手動でコミットメッセージを書くのに時間がかかります。本稿では,Retrieval-Augmented framework for CommiTメッセージ生成のためのREACTを提案する。
参考スコア（独自算出の注目度）: 8.858678357308726
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Commit message is one of the most important textual information in software development and maintenance. However, it is time-consuming to write commit messages manually. Commit Message Generation (CMG) has become a research hotspot. Recently, several pre-trained language models (PLMs) and large language models (LLMs) with code capabilities have been introduced, demonstrating impressive performance on code-related tasks. Meanwhile, prior studies have explored the utilization of retrieval techniques for CMG, but it is still unclear what effects would emerge from combining advanced retrieval techniques with various generation models. This paper proposed REACT, a REtrieval-Augmented framework for CommiT message generation. It integrates advanced retrieval techniques with different PLMs and LLMs, to enhance the performance of these models on the CMG task. Specifically, a hybrid retriever is designed and used to retrieve the most relevant code diff and commit message pair as an exemplar. Then, the retrieved pair is utilized to guide and enhance the CMG task by PLMs and LLMs through fine-tuning and in-context learning. The experimental results show that REACT significantly enhances these models' performance on the CMG task, improving the BLEU score of CodeT5 by up to 55%, boosting Llama 3's BLEU score by 102%, and substantially surpassing all baselines.
Abstract（参考訳）: コミットメッセージは、ソフトウェア開発とメンテナンスにおいて最も重要なテキスト情報のひとつです。しかし、手動でコミットメッセージを書くのに時間がかかる。コミットメッセージ生成(CMG)は研究ホットスポットとなっている。近年,コード機能を備えた事前学習型言語モデル (PLM) と大規模言語モデル (LLM) がいくつか導入され,コード関連タスクのパフォーマンスが著しく向上している。一方、従来の研究では、CMGの検索技術の利用について検討されてきたが、先進的な検索技術と様々な世代モデルを組み合わせることでどのような効果が生じるのかは、いまだ不明である。本稿では,Retrieval-Augmented framework for CommiTメッセージ生成のためのREACTを提案する。 CMGタスクでこれらのモデルの性能を向上させるため、異なるPLMとLCMを併用した高度な検索手法を組み込んだ。具体的には、ハイブリッドレトリバーを設計し、最も関連性の高いコードdiffとコミットメッセージペアを例示として検索する。次に、検索したペアを用いて、微調整およびテキスト内学習により、PLMとLCMによるCMGタスクをガイドし、強化する。実験の結果、REACTはこれらのモデルの性能を大幅に向上させ、CodeT5のBLEUスコアを最大55%向上させ、Llama 3のBLEUスコアを102%向上させ、全てのベースラインを大幅に上回った。

関連論文リスト

ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。 Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文参考訳（メタデータ） (2025-03-27T23:08:53Z)
Bridging Textual-Collaborative Gap through Semantic Codes for Sequential Recommendation [91.13055384151897]
CoCoRecは、シーケンシャルレコメンデーションのための新しいコードベースのテキストおよび協調的セマンティックフュージョン法である。ベクトル量子化手法を用いて,多視点テキスト埋め込みから細粒度セマンティックコードを生成する。テキスト・コラボレーティブ・セマンティクスの融合をさらに促進するために,最適化戦略を導入する。
論文参考訳（メタデータ） (2025-03-15T15:54:44Z)
An Empirical Study on Commit Message Generation using LLMs via In-Context Learning [26.39743339039473]
コミットメッセージは、自然言語のコード変更を簡潔に記述する。我々は,大規模言語モデル (LLM) とテキスト内学習 (ICL) の武器を借りてコミットメッセージを生成することを提案する。
論文参考訳（メタデータ） (2025-02-26T07:47:52Z)
SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文参考訳（メタデータ） (2025-02-10T21:28:15Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
コミットメッセージ生成は、ソフトウェアエンジニアリングにおいて重要なタスクであり、正しく評価することが難しい。オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。その結果,編集距離が最も高い相関を示すのに対し,BLEUやMETEORなどの類似度は低い相関を示すことがわかった。
論文参考訳（メタデータ） (2024-10-15T20:32:07Z)
Instructive Code Retriever: Learn from Large Language Model's Feedback for Code Intelligence Tasks [10.867880635762395]
Instructive Code Retriever (ICR) という新しいアプローチを導入する。 ICRは、さまざまなコードインテリジェンスタスクやデータセットにわたるモデル推論を強化するサンプルを取得するように設計されている。我々は,コード要約,プログラム合成,バグ修正など,様々なタスクにおけるモデルの有効性を評価する。
論文参考訳（メタデータ） (2024-10-15T05:44:00Z)
What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文参考訳（メタデータ） (2024-09-03T13:30:00Z)
Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文参考訳（メタデータ） (2024-04-23T08:24:43Z)
Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文参考訳（メタデータ） (2024-02-28T16:35:52Z)
Sequencing Matters: A Generate-Retrieve-Generate Model for Building Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文参考訳（メタデータ） (2023-11-16T02:37:58Z)
Enhancing Text-based Knowledge Graph Completion with Zero-Shot Large Language Models: A Focus on Semantic Enhancement [8.472388165833292]
KGC(CP-KGC)のための制約付きプロンプトというフレームワークを導入する。このフレームワークは、セマンティック・リッチネスを高めるために、異なるデータセットに適応するプロンプトを設計する。本研究は,既存のモデルの性能限界を拡張し,KGCと大規模言語モデルとのさらなる統合を促進する。
論文参考訳（メタデータ） (2023-10-12T12:31:23Z)
Harnessing Explanations: LLM-to-LM Interpreter for Enhanced Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。提案手法は、確立されたTAGデータセットの最先端結果を実現する。本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文参考訳（メタデータ） (2023-05-31T03:18:03Z)
MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。 MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文参考訳（メタデータ） (2022-12-15T13:57:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。