論文の概要: CoRaCMG: Contextual Retrieval-Augmented Framework for Commit Message Generation
- arxiv url: http://arxiv.org/abs/2509.18337v1
- Date: Mon, 22 Sep 2025 19:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.534795
- Title: CoRaCMG: Contextual Retrieval-Augmented Framework for Commit Message Generation
- Title(参考訳): CoRaCMG: コミットメッセージ生成のためのコンテキスト検索拡張フレームワーク
- Authors: Bo Xiong, Linghao Zhang, Chong Wang, Peng Liang,
- Abstract要約: Commit Message Generationは、コード差分から記述的なコミットメッセージを自動的に生成し、開発者の労力を削減し、メッセージ品質を向上させることを目的としている。
本稿では,3つのフェーズで構成されたCommit Message Generationのためのコンテキスト検索拡張フレームワークであるCoRaCMGを提案する。
CoRaCMGは、プロジェクト固有の用語やスタイルを検索したdiff-messageペアから学習することを可能にする。
- 参考スコア(独自算出の注目度): 17.392708936075223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Commit messages play a key role in documenting the intent behind code changes. However, they are often low-quality, vague, or incomplete, limiting their usefulness. Commit Message Generation (CMG) aims to automatically generate descriptive commit messages from code diffs to reduce developers' effort and improve message quality. Although recent advances in LLMs have shown promise in automating CMG, their performance remains limited. This paper aims to enhance CMG performance by retrieving similar diff-message pairs to guide LLMs to generate commit messages that are more precise and informative. We proposed CoRaCMG, a Contextual Retrieval-augmented framework for Commit Message Generation, structured in three phases: (1) Retrieve: retrieving the similar diff-message pairs; (2) Augment: combining them with the query diff into a structured prompt; and (3) Generate: generating commit messages corresponding to the query diff via LLMs. CoRaCMG enables LLMs to learn project-specific terminologies and writing styles from the retrieved diff-message pairs, thereby producing high-quality commit messages. We evaluated our method on various LLMs, including closed-source GPT models and open-source DeepSeek models. Experimental results show that CoRaCMG significantly boosts LLM performance across four metrics (BLEU, Rouge-L, METEOR, and CIDEr). Specifically, DeepSeek-R1 achieves relative improvements of 76% in BLEU and 71% in CIDEr when augmented with a single retrieved example pair. After incorporating the single example pair, GPT-4o achieves the highest improvement rate, with BLEU increasing by 89%. Moreover, performance gains plateau after more than three examples are used, indicating diminishing returns. Further analysis shows that the improvements are attributed to the model's ability to capture the terminologies and writing styles of human-written commit messages from the retrieved example pairs.
- Abstract(参考訳): コミットメッセージは、コード変更の背後にある意図を文書化する上で重要な役割を果たす。
しかし、それらはしばしば低品質、曖昧、または不完全であり、有用性を制限している。
コミットメッセージ生成(CMG)は、コード差分から記述的なコミットメッセージを自動的に生成し、開発者の労力を削減し、メッセージ品質を改善することを目的としている。
LLMの最近の進歩はCMGの自動化を約束しているが、性能は限られている。
本稿では,類似のdiff-messageペアを検索してLCMを誘導し,より正確かつ有意義なコミットメッセージを生成することにより,CMGの性能を向上させることを目的とする。
提案するCoRaCMGは,(1)検索:類似のdiff-messageペアの検索,(2)拡張:クエリdiffを構造化プロンプトに結合する,(3)生成:クエリdiffに対応するコミットメッセージをLLM経由で生成する,という3つのフェーズで構成されている。
CoRaCMGは、プロジェクト固有の用語やスタイルを抽出したdiff-messageペアから学習し、高品質なコミットメッセージを生成する。
我々は,オープンソースGPTモデルやオープンソースのDeepSeekモデルなど,様々なLCM上での手法の評価を行った。
実験の結果,CoRaCMGは4つの指標(BLEU, Rouge-L, METEOR, CIDEr)でLLM性能を著しく向上させることがわかった。
具体的には、DeepSeek-R1はBLEUで76%、CIDErで71%の相対的な改善を実現している。
単一のサンプルペアを組み込んだ後、GPT-4oは最高改善率を達成し、BLEUは89%増加した。
さらに、3つ以上の例が使用された後にパフォーマンスが向上し、リターンが低下することを示す。
さらなる分析により、この改善は、検索したサンプルペアから人書きコミットメッセージの用語とスタイルをキャプチャするモデルの能力に起因していることが示された。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - RAG-Enhanced Commit Message Generation [8.858678357308726]
コミットメッセージ生成は研究ホットスポットになっている。
手動でコミットメッセージを書くのに時間がかかります。
本稿では,Retrieval-Augmented framework for CommiTメッセージ生成のためのREACTを提案する。
論文 参考訳(メタデータ) (2024-06-08T16:24:24Z) - Using Large Language Models for Commit Message Generation: A Preliminary
Study [5.5784148764236114]
大規模言語モデル(LLM)はコミットメッセージを自動かつ効果的に生成するために使用することができる。
366サンプルの78%では, LLMが生成したコミットメッセージが人間によって最高のものと評価された。
論文 参考訳(メタデータ) (2024-01-11T14:06:39Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。