論文の概要: Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset
- arxiv url: http://arxiv.org/abs/2509.09192v1
- Date: Thu, 11 Sep 2025 07:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.255278
- Title: Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset
- Title(参考訳): コード変更に関する事前学習言語モデルの提案:信頼性の高いJust-in-Time欠陥予測データセットReDefからの洞察
- Authors: Doha Nam, Taehyoun Kim, Duksan Ryu, Jongmoon Baik,
- Abstract要約: 本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Just-in-Time software defect prediction (JIT-SDP) plays a critical role in prioritizing risky code changes during code review and continuous integration. However, existing datasets often suffer from noisy labels and low precision in identifying bug-inducing commits. To address this, we present ReDef (Revert-based Defect dataset), a high-confidence benchmark of function-level modifications curated from 22 large-scale C/C++ projects. Defective cases are anchored by revert commits, while clean cases are validated through post-hoc history checks. Ambiguous instances are conservatively filtered out via a GPT-assisted triage process involving multiple votes and audits. This pipeline yields 3,164 defective and 10,268 clean modifications, offering substantially more reliable labels than prior existing resources. Beyond dataset construction, we provide the first systematic evaluation of how pre-trained language models (PLMs) reason about code modifications -- specifically, which input encodings most effectively expose change information, and whether models genuinely capture edit semantics. We fine-tune CodeBERT, CodeT5+, and UniXcoder under five encoding strategies, and further probe their sensitivity through counterfactual perturbations that swap added/deleted blocks, invert diff polarity, or inject spurious markers. Our results show that compact diff-style encodings consistently outperform whole-function formats across all PLMs, with statistical tests confirming large, model-independent effects. However, under counterfactual tests, performance degrades little or not at all -- revealing that what appears to be robustness in fact reflects reliance on superficial cues rather than true semantic understanding. These findings indicate that, unlike in snapshot-based tasks, current PLMs remain limited in their ability to genuinely comprehend code modifications.
- Abstract(参考訳): ジャスト・イン・タイムのソフトウェア欠陥予測(JIT-SDP)は、コードレビューと継続的インテグレーションの間のリスクの高いコード変更の優先順位付けにおいて重要な役割を果たす。
しかし、既存のデータセットは、しばしばノイズの多いラベルと、バグを引き起こすコミットを特定するための低い精度に悩まされる。
これを解決するために、22の大規模C/C++プロジェクトから算出された関数レベルの高信頼度ベンチマークであるReDef(Revert-based Defect dataset)を提案する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
曖昧なインスタンスは、複数の投票と監査を含むGPT支援のトリアージプロセスを通じて保守的にフィルタリングされる。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
データセットの構築以外にも、コード修正に関する事前訓練された言語モデル(PLM)の理由、特に入力エンコーディングが変更情報を最も効果的に公開する機能、モデルが編集セマンティクスを真にキャプチャするかどうかについて、最初の体系的な評価を提供しています。
CodeBERT、CodeT5+、UniXcoderを5つのエンコーディング戦略の下で微調整し、追加/削除ブロックを置き換えたり、差分極性を反転させたり、刺激マーカーを注入したりすることで、その感度を調査する。
以上の結果から,コンパクトなdiff型符号化はPLM全体の機能フォーマットを一貫して上回り,統計的に大きなモデルに依存しない効果が確認された。
しかしながら、反ファクトテストでは、パフォーマンスはほとんど低下しないか、まったく低下しない -- 結果として、堅牢であるように見えるものは、真の意味的理解ではなく、表面的なキューに依存することを反映していることが明らかになった。
これらの結果は、スナップショットベースのタスクとは異なり、現在のPLMはコード修正を真に理解する能力に限られていることを示している。
関連論文リスト
- AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。
このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文 参考訳(メタデータ) (2026-02-10T06:58:26Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - From Illusion to Insight: Change-Aware File-Level Software Defect Prediction Using Agentic AI [2.8583947164719348]
ファイルレベルのソフトウェア欠陥予測(SDP)の報告された進歩の多くは、実際には、精度の錯覚に過ぎない。
我々は、SDPを変更対応の予測タスクとして再構成し、連続したプロジェクトバージョン内のファイルのコード変更をモデルが推論する。
複数の ProMISE プロジェクトで行った実験から,従来のモデルではF1の膨らみを達成できた。
論文 参考訳(メタデータ) (2025-12-29T21:32:29Z) - Larger Is Not Always Better: Leveraging Structured Code Diffs for Comment Inconsistency Detection [3.0208923532626444]
開発者がコードを変更するが、対応するコメントを更新することを無視する場合に、コメントの不整合が発生する。
大規模言語モデル(LLM)を利用したCCI(Code-comment Inconsistency)検出への最近のアプローチ
CodeT5+のバックボーン上に構築したJust-In-Time CCI検出手法を提案する。
論文 参考訳(メタデータ) (2025-12-22T21:17:31Z) - Understanding Robustness of Model Editing in Code LLMs: An Empirical Study [1.5624785508022727]
本稿では,5つの最先端モデル編集手法の体系的研究を行う。
これらの手法を3つの主要なオープンソースコードLLM、CodeLlama、CodeQwen1.5、DeepSeek-Coderに適用する。
インスタント編集はモデル性能を常に劣化させ、構文的妥当性は86ポイントまで低下し、機能的正しさは最高のパフォーマンス設定でも45ポイントまで低下する。
論文 参考訳(メタデータ) (2025-11-05T04:58:13Z) - LLMBisect: Breaking Barriers in Bug Bisection with A Comparative Analysis Pipeline [35.18683484280968]
大規模言語モデル(LLM)は、既存のソリューションの障壁を断ち切るために適切に配置されている。
LLMはテキストデータとコードの両方をパッチやコミットで理解している。
提案手法は最先端のソリューションよりも38%以上精度が向上する。
論文 参考訳(メタデータ) (2025-10-30T02:47:25Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - RePaCA: Leveraging Reasoning Large Language Models for Static Automated Patch Correctness Assessment [0.0]
本稿では,Large Language Models (LLM) を利用した新しい静的APCA手法であるRePaCAを紹介する。
提案手法は,83.1%の精度と84.8%のF1スコアで最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T11:21:09Z) - Give Me FP32 or Give Me Death? Challenges and Solutions for Reproducible Reasoning [54.970571745690634]
本研究は,数値精度が大規模言語モデルの推論に与える影響について,最初の系統的研究を行った。
我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインであるLayerCastを開発した。
そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文 参考訳(メタデータ) (2025-06-11T08:23:53Z) - Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。
LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文 参考訳(メタデータ) (2025-06-06T13:02:59Z) - LLM-Based Detection of Tangled Code Changes for Higher-Quality Method-Level Bug Datasets [5.191767648600372]
本稿では,コミットメッセージとメソッドレベルのコード差分の両方を活用することで,絡み合ったコード変化を検出するための大規模言語モデルの有用性について検討する。
その結果,コミットメッセージとコード差分を組み合わせることで,モデルの性能が著しく向上することがわかった。
49のオープンソースプロジェクトにアプローチを適用することで、バグギーと非バグギーメソッド間のコードのメトリクスの分散分離性が向上します。
論文 参考訳(メタデータ) (2025-05-13T06:26:13Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。
ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。
プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。
この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Beyond Natural Language Perplexity: Detecting Dead Code Poisoning in Code Generation Datasets [8.977790462534152]
本稿では,コードの構造に合わせた新しいラインレベルの検出とクリーン化手法であるDePAを提案する。
DePAは既存の方法よりも優れており、検出F1スコアが0.14-0.19向上し、有毒セグメントの局在精度が44-65%向上した。
論文 参考訳(メタデータ) (2025-02-27T16:30:00Z) - VFDelta: A Framework for Detecting Silent Vulnerability Fixes by Enhancing Code Change Learning [13.035171280235831]
オープンソースソフトウェア(OSS)の脆弱性修正は通常、調整された脆弱性開示モデルに従い、静かに修正される。
この遅延は、修正が公表される前に悪意のある関係者がソフトウェアを悪用する可能性があるため、OSSユーザを危険に晒す可能性がある。
既存のメソッドは、コード変更表現をコミットから学習することで脆弱性修正を分類する。
VFDeltaは、コードを取り囲む独立したモデルを用いて、変更前後にコードを埋め込む軽量で効果的なフレームワークである。
論文 参考訳(メタデータ) (2024-09-25T04:13:08Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。