論文の概要: Model See, Model Do? Exposure-Aware Evaluation of Bug-vs-Fix Preference in Code LLMs
- arxiv url: http://arxiv.org/abs/2601.10496v1
- Date: Thu, 15 Jan 2026 15:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.193841
- Title: Model See, Model Do? Exposure-Aware Evaluation of Bug-vs-Fix Preference in Code LLMs
- Title(参考訳): モデル・シー, モデル・ドー? コードLLMにおけるBug-vs-Fix選好の評価
- Authors: Ali Al-Kaswan, Claudio Spiess, Prem Devanbu, Arie van Deursen, Maliheh Izadi,
- Abstract要約: LLMが正しいコードを好むかどうかを判断することは、トレーニング中に露出したものに影響される可能性がある。
我々は、バグギーと固定コードへの事前露光がモデルの嗜好にどのように影響するかを定量化する露光認識評価フレームワークを導入する。
- 参考スコア(独自算出の注目度): 14.187824830583784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used for code generation and debugging, but their outputs can still contain bugs, that originate from training data. Distinguishing whether an LLM prefers correct code, or a familiar incorrect version might be influenced by what it's been exposed to during training. We introduce an exposure-aware evaluation framework that quantifies how prior exposure to buggy versus fixed code influences a model's preference. Using the ManySStuBs4J benchmark, we apply Data Portraits for membership testing on the Stack-V2 corpus to estimate whether each buggy and fixed variant was seen during training. We then stratify examples by exposure and compare model preference using code completion as well as multiple likelihood-based scoring metrics We find that most examples (67%) have neither variant in the training data, and when only one is present, fixes are more frequently present than bugs. In model generations, models reproduce buggy lines far more often than fixes, with bug-exposed examples amplifying this tendency and fix-exposed examples showing only marginal improvement. In likelihood scoring, minimum and maximum token-probability metrics consistently prefer the fixed code across all conditions, indicating a stable bias toward correct fixes. In contrast, metrics like the Gini coefficient reverse preference when only the buggy variant was seen. Our results indicate that exposure can skew bug-fix evaluations and highlight the risk that LLMs may propagate memorised errors in practice.
- Abstract(参考訳): 大規模な言語モデルは、コード生成やデバッグにますます使われていますが、そのアウトプットには、トレーニングデータに由来するバグが含まれています。
LLMが正しいコードを好むか、あるいは慣れ親しんだ不正確なバージョンが、トレーニング中に露出したものに影響される可能性がある。
我々は、バグギーと固定コードへの事前露光がモデルの嗜好にどのように影響するかを定量化する露光認識評価フレームワークを導入する。
ManySStuBs4Jベンチマークを用いて、Stack-V2コーパスのメンバシップテストにData Portraitsを適用し、トレーニング中に各バギーと固定変種が見られたかどうかを推定する。
次に、コード補完と複数の可能性ベースのスコアリングメトリクスを使用して、モデルの優先順位を比較して、サンプルを階層化し、トレーニングデータにバリエーションがない例(67%)がほとんどで、ひとつだけ存在する場合、バグよりも修正が頻繁に存在することが分かりました。
モデル世代では、モデルは修正よりもはるかに頻繁にバグの行を再現し、バグ露見例はこの傾向を増幅し、修正露見例では限界的な改善しか示さない。
おそらくスコアリングにおいて、最小と最大トークン確率のメトリクスは、常にすべての条件で固定されたコードを好んでおり、修正に対する安定したバイアスを示している。
対照的に、ギーニ係数のようなメトリクスは、バギー変種だけが見えるときに、逆選好である。
以上の結果から,曝露によりバグフィックスの評価が歪められ,LLMが実際に記憶された誤りを伝播するリスクが浮き彫りになる可能性が示唆された。
関連論文リスト
- PrefixNLI: Detecting Factual Inconsistencies as Soon as They Arise [60.63315470285562]
MiniTruePrefixesは、テキストプレフィックスよりも事実上の矛盾をよりよく検出する、新しい特殊モデルである。
制御されたデコードフレームワークにMiniTruePrefixesを組み込むことで,抽象的な要約における現実の一貫性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-11-03T09:07:44Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - A Deep Dive into Large Language Models for Automated Bug Localization and Repair [12.756202755547024]
大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。
本研究では,LSMを用いた自動バグ修正について深く検討する。
異なるLLMを用いてバグの局所化と修正を分離することにより、多様なコンテキスト情報の効果的な統合が可能になる。
Toggleは、CodeXGLUEコード改善ベンチマークで、新しい最先端(SOTA)パフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-17T17:48:18Z) - LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised
Time Series Anomaly Detection [49.52429991848581]
深部変分自動エンコーダに基づく時系列異常検出手法(VAE)のための光・反オーバーフィット学習手法(LARA)を提案する。
本研究の目的は,1) 再学習過程を凸問題として定式化し, 過度に収束できること,2) 履歴データを保存せずに活用するルミネートブロックを設計すること,3) 潜在ベクトルと再構成データの微調整を行うと, 線形形成が基底真実と微調整されたブロックとの誤りを最小に調整できることを数学的に証明することである。
論文 参考訳(メタデータ) (2023-10-09T12:36:16Z) - Method-Level Bug Severity Prediction using Source Code Metrics and LLMs [0.628122931748758]
本稿では,ソースコードのメトリクス,大言語モデル(LLM)を用いたソースコード表現,およびバグ重大度ラベルの予測におけるそれらの組み合わせについて検討する。
以上の結果から,決定木モデルとランダムフォレストモデルは,いくつかの評価指標に関して,他のモデルよりも優れていたことが示唆された。
CodeBERTの微調整により、いくつかの評価指標の29%-140%の範囲でバグの重大度予測が大幅に改善される。
論文 参考訳(メタデータ) (2023-09-06T14:38:07Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。