論文の概要: Contextual Code Retrieval for Commit Message Generation: A Preliminary Study
- arxiv url: http://arxiv.org/abs/2507.17690v1
- Date: Wed, 23 Jul 2025 16:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.097338
- Title: Contextual Code Retrieval for Commit Message Generation: A Preliminary Study
- Title(参考訳): コミットメッセージ生成のための文脈コード検索--予備的検討
- Authors: Bo Xiong, Linghao Zhang, Chong Wang, Peng Liang,
- Abstract要約: コミットメッセージはコミットの主要なコード変更を記述し、ソフトウェアメンテナンスにおいて重要な役割を果たす。
既存のコミットメッセージ生成アプローチでは、コード差分を入力し、短い記述文を出力として生成する、直接マッピングとしてフレーム化するのが一般的である。
原コード差分は、高品質なコミットメッセージを生成するのに必要な完全なコンテキストをキャプチャできないため、コード差分のみに依存することは不十分である、と私たちは主張する。
- 参考スコア(独自算出の注目度): 18.46986692375691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A commit message describes the main code changes in a commit and plays a crucial role in software maintenance. Existing commit message generation (CMG) approaches typically frame it as a direct mapping which inputs a code diff and produces a brief descriptive sentence as output. However, we argue that relying solely on the code diff is insufficient, as raw code diff fails to capture the full context needed for generating high-quality and informative commit messages. In this paper, we propose a contextual code retrieval-based method called C3Gen to enhance CMG by retrieving commit-relevant code snippets from the repository and incorporating them into the model input to provide richer contextual information at the repository scope. In the experiments, we evaluated the effectiveness of C3Gen across various models using four objective and three subjective metrics. Meanwhile, we design and conduct a human evaluation to investigate how C3Gen-generated commit messages are perceived by human developers. The results show that by incorporating contextual code into the input, C3Gen enables models to effectively leverage additional information to generate more comprehensive and informative commit messages with greater practical value in real-world development scenarios. Further analysis underscores concerns about the reliability of similaritybased metrics and provides empirical insights for CMG.
- Abstract(参考訳): コミットメッセージはコミットの主要なコード変更を記述し、ソフトウェアメンテナンスにおいて重要な役割を果たす。
既存のコミットメッセージ生成(CMG)アプローチは、コード差分を入力し、短い記述文を出力として生成する、直接マッピングとしてこれをフレーム化するのが一般的である。
しかし、生のコード差分が高品質で情報的なコミットメッセージを生成するのに必要な完全なコンテキストをキャプチャできないため、コード差分のみに依存することは不十分である、と我々は主張する。
本稿では,リポジトリからコミット関連コードスニペットを取得し,それらをモデル入力に組み込んで,よりリッチなコンテキスト情報を提供する,C3Genと呼ばれるコンテキストコード検索手法を提案する。
実験では,4つの主観的指標と3つの主観的指標を用いて,C3Genの有効性を評価した。
一方,我々は,C3Gen生成したコミットメッセージが人間開発者によってどのように認識されるかを調べるために,人間による評価を設計し,実施する。
その結果、C3Genは、コンテキストコードを入力に組み込むことで、モデルに追加情報を効果的に活用し、実際の開発シナリオにおいてより実用的な価値を持つ、より包括的で情報的なコミットメッセージを生成することができることがわかった。
さらなる分析は、類似度に基づくメトリクスの信頼性に関する懸念を強調し、CMGに経験的な洞察を提供する。
関連論文リスト
- Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。
コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。
実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文 参考訳(メタデータ) (2024-09-20T14:49:51Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - COMET: Generating Commit Messages using Delta Graph Context
Representation [2.5899040911480182]
コミットメッセージはコミット中のコード変更を説明し、開発者間のコラボレーションを容易にする。
グラフベースの表現を用いて、コード変更のコンテキストをキャプチャする新しいアプローチであるCometを提案する。
テストによると、彗星は白ノルムと気象の指標で最先端の技術を上回っている。
論文 参考訳(メタデータ) (2024-02-02T19:01:52Z) - Commit Messages in the Age of Large Language Models [0.9217021281095906]
コード変更に基づいてコミットメッセージを生成するOpenAIのChatGPTの性能を評価する。
本稿では、ChatGPTを用いて得られた結果と、コミットデータに特化して訓練された以前の自動コミットメッセージ生成手法を比較した。
論文 参考訳(メタデータ) (2024-01-31T06:47:12Z) - From Commit Message Generation to History-Aware Commit Message
Completion [49.175498083165884]
コミットメッセージ生成からコミットメッセージ補完に焦点を移すことができれば、結果のコミットメッセージの品質と個人的な性質を大幅に改善できる、と私たちは論じています。
既存のデータセットには履歴データがないため、20のプログラミング言語で107万のコミットを含むCommitChronicleと呼ばれる新しいデータセットを収集、共有しています。
以上の結果から,コミットメッセージ補完は生成よりも優れた結果を示し,一般的にはGPT-3.5-turboはより悪い性能を示すが,長大かつ詳細なメッセージの可能性を示唆している。
論文 参考訳(メタデータ) (2023-08-15T09:10:49Z) - Delving into Commit-Issue Correlation to Enhance Commit Message
Generation Models [13.605167159285374]
コミットメッセージ生成は、自動化されたソフトウェアエンジニアリングにおいて難しいタスクである。
ツールとは,コミットとイシューの相関関係をモデルのトレーニングフェーズに導入する,新たなパラダイムだ。
その結果,元モデルと比較して,ツール強化モデルの性能は大幅に向上した。
論文 参考訳(メタデータ) (2023-07-31T20:35:00Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - ECMG: Exemplar-based Commit Message Generation [45.54414179533286]
コミットメッセージは、コード差分の内容(つまり、コードの変更)とそれらの背後にある意図を簡潔に記述する。
情報検索ベースの手法は、類似のコードdiffsのコミットメッセージを再利用し、ニューラルベースの手法は、コードdiffsとコミットメッセージ間のセマンティックな接続を学習する。
本稿では、類似のコミットメッセージを例に扱い、ニューラルネットワークモデルを誘導して正確なコミットメッセージを生成する、新しい例ベースのニューラルコミットメッセージ生成モデルを提案する。
論文 参考訳(メタデータ) (2022-03-05T10:55:15Z) - CoreGen: Contextualized Code Representation Learning for Commit Message
Generation [39.383390029545865]
コミットメッセージ生成(CoreGen)のためのコンテキスト適応型コード表現学習戦略を提案する。
ベンチマークデータセットの実験では、BLEU-4スコアの少なくとも28.18%の改善により、ベースラインモデルよりもモデルの有効性が向上した。
論文 参考訳(メタデータ) (2020-07-14T09:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。