Fugu-MT 論文翻訳(概要): CodeFuse-CommitEval: Towards Benchmarking LLM's Power on Commit Message and Code Change Inconsistency Detection

論文の概要: CodeFuse-CommitEval: Towards Benchmarking LLM's Power on Commit Message and Code Change Inconsistency Detection

arxiv url: http://arxiv.org/abs/2511.19875v1
Date: Tue, 25 Nov 2025 03:33:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-26 17:37:04.254027
Title: CodeFuse-CommitEval: Towards Benchmarking LLM's Power on Commit Message and Code Change Inconsistency Detection
Title（参考訳）: CodeFuse-CommitEval: コミットメッセージとコード変更の不整合検出におけるLLMのパワーのベンチマークを目指して
Authors: Qingyu Zhang, Puzhuo Liu, Peng Di, Chenxiong Qian,
Abstract要約: バージョン管理は、コード変更の合理性を伝えるためにコミットメッセージに依存するが、これらのメッセージは、しばしば低品質で、メッセージコード不整合(MCI)として知られる差分と矛盾する。大規模言語モデル(LLM)を用いたMCI検出のための最初のベンチマークであるCODEFUSE-COMMITEVALを紹介する。我々は、元々一貫したコミットのルール誘導突然変異を通じて、7種類の一貫性のないメッセージを生成し、正と負の両方のサンプルを検証するために2倍の検証を適用した。
参考スコア（独自算出の注目度）: 8.631593963090985
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Version control relies on commit messages to convey the rationale for code changes, but these messages are often low quality and, more critically, inconsistent with their diffs-known as message-code inconsistency (MCI). MCIs mislead reviewers, hinder maintenance, contaminate research datasets, and may obscure security patches. Yet, no dedicated benchmark exists to evaluate models for MCI detection. We introduce CODEFUSE-COMMITEVAL, the first benchmark designed for MCI detection using large language models (LLMs). Built on the ApacheCM dataset for diversity and quality, we generate seven types of inconsistent messages through rule-guided mutations of originally consistent commits and apply two-fold validation to verify both positive and negative samples. Using this labeled dataset of message-diff pairs, we evaluate six state-of-the-art open-source LLMs under a vanilla setting and with three augmentation strategies: few-shot prompting, chain-of-thought, and extended context. Results show models detect inconsistent commits more reliably than consistent ones (average Recall 85.95%, Precision 80.28%, Specificity 63.8%); gpt-oss-20B performs best overall but uses over twice the tokens of others. Augmentation effects vary: adjacent context helps larger models but adds noise for smaller ones; few-shot improves accuracy and reduces token use, yet increases universally incorrect predictions; chain-of-thought boosts precision and specificity at the cost of recall and higher token consumption. Type-wise analysis reveals higher detectability for component, file-path, and operation inconsistencies, but lower accuracy and higher token cost for intent-level "purpose" inconsistencies. CODEFUSE-COMMITEVAL provides a rigorous foundation for measuring, comparing, and advancing MCI detection, highlighting the need for richer context and balanced data to capture high-level semantic gaps.
Abstract（参考訳）: バージョン管理は、コード変更の合理性を伝えるためにコミットメッセージに依存するが、これらのメッセージはしばしば低品質であり、より重要なことは、メッセージコード不整合(MCI)として知られる差分と矛盾する。 MCIは、レビュアーを誤解させ、メンテナンスを妨げ、研究データセットを汚染し、セキュリティパッチを曖昧にする可能性がある。しかし、MCI検出のためのモデルを評価するための専用のベンチマークは存在しない。 CODEFUSE-COMMITEVALは,大規模言語モデル(LLM)を用いたMCI検出のための最初のベンチマークである。多様性と品質のためにApacheCMデータセット上に構築され、元々一貫したコミットのルール誘導突然変異を通じて、7種類の一貫性のないメッセージを生成し、正と負の両方のサンプルを検証するために2倍の検証を適用します。このラベル付きメッセージ-差分ペアのデータセットを用いて、バニラ設定下で6つの最先端のオープンソースLLMを評価し、3つの拡張戦略、すなわち、数発のプロンプト、チェーン・オブ・コンテクスト、拡張コンテキストで評価する。結果は、一貫性のないコミット(平均的リコール85.95%、精度80.28%、特異性63.8%)より一貫性のないコミットを検出することを示し、gpt-oss-20Bは全体としては最高だが、他のトークンの2倍以上を使用する。隣り合うコンテキストはより大きなモデルに役立つが、より小さなもののためにノイズを追加する; 少数ショットは正確性を改善し、トークンの使用を減らすが、普遍的に誤った予測を増加させる; チェーン・オブ・シントはリコールのコストとより高いトークン消費のコストで精度と特異性を向上する。タイプワイズ解析により、コンポーネント、ファイルパス、操作の不整合の検出性が向上するが、インテントレベルの"目的"不整合に対して、精度が低下し、トークンコストが上昇する。 CODEFUSE-COMMITEVALは、MCI検出の測定、比較、進歩のための厳格な基盤を提供する。

関連論文リスト

Beyond Raw Detection Scores: Markov-Informed Calibration for Boosting Machine-Generated Text Detection [105.14032334647932]
機械生成テキスト(MGT)は偽情報やフィッシングなどのリスクを生じさせ、信頼性の高い検出の必要性を強調している。 MGTの統計的に区別可能な特徴を抽出するメトリックベース法は、オーバーフィットしがちな複雑なモデルベース法よりも実用的であることが多い。本稿では,2つのコンテキスト検出スコアの関係をモデル化したマルコフ情報を用いたスコアキャリブレーション手法を提案する。
論文参考訳（メタデータ） (2026-02-08T16:06:12Z)
CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。 LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文参考訳（メタデータ） (2026-02-04T00:12:30Z)
Detecting Multiple Semantic Concerns in Tangled Code Commits [1.2578844450585998]
開発者はしばしば、絡まったコミットに複数の関心事をバンドルし、意図を隠蔽し、メンテナンスを複雑にする。近年の研究では、コミット意図を捉えるために、CCS(Conventional Commits Specification)とLM(Language Models)が使われている。本研究では,SLMを用いて,絡み合ったコミットにおける複数の意味的関心事を検出する実験的検討を行った。
論文参考訳（メタデータ） (2026-01-29T05:50:16Z)
Do LLMs Know They Are Being Tested? Evaluation Awareness and Incentive-Sensitive Failures in GPT-OSS-20B [1.948261185683419]
本研究では,「評価香り」がコンメンシュレート能力を得ることなく測定性能を膨らませるかどうかを考察する。 6つのペアのA/Bシナリオを実行し、タスク内容を保持し、フレーミングの異なる状態でデコードします。再現可能なA/Bフレームワーク(バンキング、バリデータ、ラン毎のスコア、スクリプト)と実践的なガイダンスを提供する。
論文参考訳（メタデータ） (2025-10-08T09:49:05Z)
CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。 ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文参考訳（メタデータ） (2025-10-02T02:14:33Z)
Towards Automated Error Discovery: A Study in Conversational AI [48.735443116662026]
本稿では,会話型AIにおけるエラーの検出と定義のためのフレームワークであるAutomated Error Discoveryを紹介する。また,その実装に対するエンコーダに基づくアプローチとして,SEEED(Soft Clustering Extended-Based Error Detection)を提案する。
論文参考訳（メタデータ） (2025-09-13T14:53:22Z)
Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文参考訳（メタデータ） (2025-09-11T07:07:11Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
LLM-Based Detection of Tangled Code Changes for Higher-Quality Method-Level Bug Datasets [8.166584296080805]
本稿では,コミットメッセージとメソッドレベルのコード差分の両方を活用することで,絡み合ったコード変化を検出するための大規模言語モデルの有用性について検討する。その結果,コミットメッセージとコード差分を組み合わせることで,モデルの性能が著しく向上することがわかった。 49のオープンソースプロジェクトにアプローチを適用することで、バグギーと非バグギーメソッド間のコードのメトリクスの分散分離性が向上します。
論文参考訳（メタデータ） (2025-05-13T06:26:13Z)
Synchronous Faithfulness Monitoring for Trustworthy Retrieval-Augmented Generation [96.78845113346809]
Retrieval-augmented Language Model (RALMs) は、知識集約型タスクにおいて、高い性能と幅広い適用性を示している。本稿では,非偽文の検出に微細な復号力学を利用する軽量モニタであるSynCheckを提案する。また、長文検索拡張生成のためのビームサーチによって導かれる忠実度指向の復号アルゴリズムであるFODを導入する。
論文参考訳（メタデータ） (2024-06-19T16:42:57Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。