論文の概要: CommitSuite: A Comprehensive Benchmark for Commit Classification and Message Generation
- arxiv url: http://arxiv.org/abs/2605.02256v1
- Date: Mon, 04 May 2026 06:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.156029
- Title: CommitSuite: A Comprehensive Benchmark for Commit Classification and Message Generation
- Title(参考訳): CommitSuite: コミット分類とメッセージ生成のための総合ベンチマーク
- Authors: Zirui Wan, Zhaonan Wu, Xinyi Hou, Yanjie Zhao, Pengcheng Xia, Haoyu Wang,
- Abstract要約: CommitSuiteは、7つのプログラミング言語にわたる243のオープンソースリポジトリから63,533のCS準拠のコミットからなるベンチマークである。
実験の結果,LLMは生成と評価の両方を効果的に支援でき,評価は人的判断に対して0.849コーエンのカッパ合意を達成できることがわかった。
- 参考スコア(独自算出の注目度): 11.442726319591488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality commit messages are critical for maintaining software projects, yet ensuring their consistency and informativeness remains a practical challenge. While the Conventional Commits Specification (CCS) provides a structured format for commit messages, research on CCS-based commit classification and commit message generation (CMG) is limited by the absence of large-scale benchmarks, semantic annotations, and reliable evaluation methods. In this paper, we introduce CommitSuite, a benchmark comprising 63,533 CCS-compliant commits from 243 open-source repositories across seven programming languages. Each commit is labeled with its CCS type and enriched with AST-level code changes, along with LLM-assisted semantic annotations that capture the "what" and "why" behind the change. To evaluate CMG systems, we propose a reference-free framework based on five binary metrics: rationality, comprehensiveness, non-redundancy, authenticity, and logicality, enabling semantic-level assessment without relying on human-written references. Our experiments show that LLMs can effectively support both generation and evaluation, with evaluation achieving 0.849 Cohen's Kappa agreement against human judgments. CommitSuite offers a unified resource for structured commit understanding and facilitates reproducible research on commit classification and generation.
- Abstract(参考訳): 高品質なコミットメッセージはソフトウェアプロジェクトのメンテナンスには不可欠ですが、一貫性と情報性の確保は依然として現実的な課題です。
Conventional Commits Specification(CCS)はコミットメッセージのための構造化フォーマットを提供するが、CCSベースのコミット分類とコミットメッセージ生成(CMG)の研究は、大規模なベンチマーク、セマンティックアノテーション、信頼性評価方法が欠如しているため制限される。
本稿では、7つのプログラミング言語にまたがる243のオープンソースリポジトリから63,533のCCS準拠のコミットからなるベンチマークであるCommitSuiteを紹介する。
各コミットはCCSタイプでラベル付けされ、ASTレベルのコード変更と、変更の背後にある"What"と"Why"をキャプチャするLLMアシストセマンティックアノテーションが強化されている。
CMGシステムを評価するために, 有理性, 包括性, 非冗長性, 信頼性, 論理性という5つの指標に基づく参照フリーフレームワークを提案する。
実験の結果,LLMは生成と評価の両方を効果的に支援でき,評価は人的判断に対して0.849コーエンのカッパ合意を達成できることがわかった。
CommitSuiteは構造化されたコミット理解のための統一されたリソースを提供し、コミット分類と生成に関する再現可能な研究を促進する。
関連論文リスト
- An Agentic Evaluation Framework for AI-Generated Scientific Code in PETSc [7.236134946837382]
petscagent-benchはエージェント評価エージェントのパラダイムに基づいて構築されたエージェントフレームワークである。
正確性、パフォーマンス、コード品質、アルゴリズムの適切性、ライブラリ固有の規約の5つの評価カテゴリで14評価パイプラインを編成する。
本フレームワークは,HPC用PETScライブラリを用いて,現実的な問題のベンチマークスイート上で実演する。
論文 参考訳(メタデータ) (2026-03-16T22:46:10Z) - Discourse-Aware Scientific Paper Recommendation via QA-Style Summarization and Multi-Level Contrastive Learning [2.105564340986074]
OMRC-MRは、QAスタイルのOMRC要約、マルチレベルコントラスト学習、そして学術的推薦のための構造認識の再分類を統合する階層的なフレームワークである。
DBLP、S2ORC、新たに構築されたSci-OMRCデータセットの実験は、OMRC-MRが最先端のベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-11-05T09:55:12Z) - Human-Aligned Code Readability Assessment with Large Language Models [15.17270025276759]
本稿では,大規模言語モデル(LLM)に基づくコード可読性評価のための,最初の大規模ベンチマークであるCoReEvalを紹介する。
LLMはスケーラブルな代替手段を提供するが、可読性評価器としてのそれらの振る舞いは未検討のままである。
以上の結果から,人間定義の可読性次元に基礎を置く開発者誘導型プロンプトは,構造化コンテキストにおけるアライメントを改善することが示唆された。
論文 参考訳(メタデータ) (2025-10-18T17:00:52Z) - Task-Agnostic Learnable Weighted-Knowledge Base Scheme for Robust Semantic Communications [52.36313868773825]
本稿では,手堅い画像伝送のためのタスク非依存学習型重み付き知識ベースセマンティックコミュニケーション(TALSC)フレームワークを提案する。
このフレームワークには、メタラーナーとしてサンプル信頼モジュール(SCM)と学習者としての意味的符号化ネットワークが組み込まれている。
シミュレーションにより,TALSCフレームワークは,タスク非依存の画像意味コミュニケーションにおけるフリップノイズとクラス不均衡の効果を効果的に緩和することを示した。
論文 参考訳(メタデータ) (2025-09-15T07:10:21Z) - evalSmarT: An LLM-Based Framework for Evaluating Smart Contract Generated Comments [0.0]
大規模な言語モデル(LLM)を評価対象として利用するモジュール型フレームワークである texttevalSmarT を提案する。
コメント生成ツールのベンチマークや,最も情報に富んだアウトプットの選択において,その応用を実証する。
論文 参考訳(メタデータ) (2025-07-28T12:37:43Z) - Contextual Code Retrieval for Commit Message Generation: A Preliminary Study [18.46986692375691]
コミットメッセージはコミットの主要なコード変更を記述し、ソフトウェアメンテナンスにおいて重要な役割を果たす。
既存のコミットメッセージ生成アプローチでは、コード差分を入力し、短い記述文を出力として生成する、直接マッピングとしてフレーム化するのが一般的である。
原コード差分は、高品質なコミットメッセージを生成するのに必要な完全なコンテキストをキャプチャできないため、コード差分のみに依存することは不十分である、と私たちは主張する。
論文 参考訳(メタデータ) (2025-07-23T16:54:57Z) - WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。
このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文 参考訳(メタデータ) (2025-03-07T08:56:20Z) - Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。
我々は,GPT-4が生成したコミットメッセージと,人間の専門家が編集したコミットメッセージからなる57対のデータセットを収集した。
以上の結果から,編集距離が最も高い相関性を示すのに対し,BLEUやMETEORなどの類似度は低い相関性を示すことがわかった。
論文 参考訳(メタデータ) (2024-10-15T20:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。