Fugu-MT 論文翻訳(概要): Model See, Model Do? Exposure-Aware Evaluation of Bug-vs-Fix Preference in Code LLMs

論文の概要: Model See, Model Do? Exposure-Aware Evaluation of Bug-vs-Fix Preference in Code LLMs

arxiv url: http://arxiv.org/abs/2601.10496v1
Date: Thu, 15 Jan 2026 15:14:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-16 19:43:19.193841
Title: Model See, Model Do? Exposure-Aware Evaluation of Bug-vs-Fix Preference in Code LLMs
Title（参考訳）: モデル・シー, モデル・ドー? コードLLMにおけるBug-vs-Fix選好の評価
Authors: Ali Al-Kaswan, Claudio Spiess, Prem Devanbu, Arie van Deursen, Maliheh Izadi,
Abstract要約: LLMが正しいコードを好むかどうかを判断することは、トレーニング中に露出したものに影響される可能性がある。我々は、バグギーと固定コードへの事前露光がモデルの嗜好にどのように影響するかを定量化する露光認識評価フレームワークを導入する。
参考スコア（独自算出の注目度）: 14.187824830583784
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models are increasingly used for code generation and debugging, but their outputs can still contain bugs, that originate from training data. Distinguishing whether an LLM prefers correct code, or a familiar incorrect version might be influenced by what it's been exposed to during training. We introduce an exposure-aware evaluation framework that quantifies how prior exposure to buggy versus fixed code influences a model's preference. Using the ManySStuBs4J benchmark, we apply Data Portraits for membership testing on the Stack-V2 corpus to estimate whether each buggy and fixed variant was seen during training. We then stratify examples by exposure and compare model preference using code completion as well as multiple likelihood-based scoring metrics We find that most examples (67%) have neither variant in the training data, and when only one is present, fixes are more frequently present than bugs. In model generations, models reproduce buggy lines far more often than fixes, with bug-exposed examples amplifying this tendency and fix-exposed examples showing only marginal improvement. In likelihood scoring, minimum and maximum token-probability metrics consistently prefer the fixed code across all conditions, indicating a stable bias toward correct fixes. In contrast, metrics like the Gini coefficient reverse preference when only the buggy variant was seen. Our results indicate that exposure can skew bug-fix evaluations and highlight the risk that LLMs may propagate memorised errors in practice.
Abstract（参考訳）: 大規模な言語モデルは、コード生成やデバッグにますます使われていますが、そのアウトプットには、トレーニングデータに由来するバグが含まれています。 LLMが正しいコードを好むか、あるいは慣れ親しんだ不正確なバージョンが、トレーニング中に露出したものに影響される可能性がある。我々は、バグギーと固定コードへの事前露光がモデルの嗜好にどのように影響するかを定量化する露光認識評価フレームワークを導入する。 ManySStuBs4Jベンチマークを用いて、Stack-V2コーパスのメンバシップテストにData Portraitsを適用し、トレーニング中に各バギーと固定変種が見られたかどうかを推定する。次に、コード補完と複数の可能性ベースのスコアリングメトリクスを使用して、モデルの優先順位を比較して、サンプルを階層化し、トレーニングデータにバリエーションがない例(67%)がほとんどで、ひとつだけ存在する場合、バグよりも修正が頻繁に存在することが分かりました。モデル世代では、モデルは修正よりもはるかに頻繁にバグの行を再現し、バグ露見例はこの傾向を増幅し、修正露見例では限界的な改善しか示さない。おそらくスコアリングにおいて、最小と最大トークン確率のメトリクスは、常にすべての条件で固定されたコードを好んでおり、修正に対する安定したバイアスを示している。対照的に、ギーニ係数のようなメトリクスは、バギー変種だけが見えるときに、逆選好である。以上の結果から,曝露によりバグフィックスの評価が歪められ,LLMが実際に記憶された誤りを伝播するリスクが浮き彫りになる可能性が示唆された。

関連論文リスト

PrefixNLI: Detecting Factual Inconsistencies as Soon as They Arise [60.63315470285562]
MiniTruePrefixesは、テキストプレフィックスよりも事実上の矛盾をよりよく検出する、新しい特殊モデルである。制御されたデコードフレームワークにMiniTruePrefixesを組み込むことで,抽象的な要約における現実の一貫性が大幅に向上することを示す。
論文参考訳（メタデータ） (2025-11-03T09:07:44Z)
Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文参考訳（メタデータ） (2025-09-11T07:07:11Z)
Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文参考訳（メタデータ） (2025-01-02T22:26:54Z)
Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは、事前定義された微妙なエラーをピボットトークンに注入する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
A Deep Dive into Large Language Models for Automated Bug Localization and Repair [12.756202755547024]
大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。本研究では,LSMを用いた自動バグ修正について深く検討する。異なるLLMを用いてバグの局所化と修正を分離することにより、多様なコンテキスト情報の効果的な統合が可能になる。 Toggleは、CodeXGLUEコード改善ベンチマークで、新しい最先端(SOTA)パフォーマンスを実現する。
論文参考訳（メタデータ） (2024-04-17T17:48:18Z)
Few-Shot Recalibration of Language Models [23.829795148520834]
我々は、任意のスライスからラベルのない例をいくつか取り込んだリカレーションモデルをトレーニングし、信頼度スコアをそのスライスに対してより正確なものに再マップする曲線を予測する。我々の訓練されたモデルは、そのスライスからラベル付きデータを使わずに、任意の新しいスライスのために再調整できる。実験により、我々の数発の再校正器は既存の校正方法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-03-27T06:25:40Z)
Do Language Models Learn Semantics of Code? A Case Study in Vulnerability Detection [7.725755567907359]
我々は,解釈可能性ツール,注意分析,相互作用行列解析という3つの異なる手法を用いてモデルを解析する。モデル入力内のバグセマンティクスをハイライトする2つのアノテーション手法を開発した。この結果から,より複雑なパスベースのバグセマンティクスを学習する上で,モデルにバグセマンティクスの情報を提供し,モデルがそれに参加することができることを示唆した。
論文参考訳（メタデータ） (2023-11-07T16:31:56Z)
LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised Time Series Anomaly Detection [49.52429991848581]
深部変分自動エンコーダに基づく時系列異常検出手法(VAE)のための光・反オーバーフィット学習手法(LARA)を提案する。本研究の目的は,1) 再学習過程を凸問題として定式化し, 過度に収束できること,2) 履歴データを保存せずに活用するルミネートブロックを設計すること,3) 潜在ベクトルと再構成データの微調整を行うと, 線形形成が基底真実と微調整されたブロックとの誤りを最小に調整できることを数学的に証明することである。
論文参考訳（メタデータ） (2023-10-09T12:36:16Z)
Method-Level Bug Severity Prediction using Source Code Metrics and LLMs [0.628122931748758]
本稿では,ソースコードのメトリクス,大言語モデル(LLM)を用いたソースコード表現,およびバグ重大度ラベルの予測におけるそれらの組み合わせについて検討する。以上の結果から,決定木モデルとランダムフォレストモデルは,いくつかの評価指標に関して,他のモデルよりも優れていたことが示唆された。 CodeBERTの微調整により、いくつかの評価指標の29%-140%の範囲でバグの重大度予測が大幅に改善される。
論文参考訳（メタデータ） (2023-09-06T14:38:07Z)
Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文参考訳（メタデータ） (2022-05-25T15:26:48Z)
How Can We Know When Language Models Know? On the Calibration of Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか? 我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文参考訳（メタデータ） (2020-12-02T03:53:13Z)
Evaluating Prediction-Time Batch Normalization for Robustness under Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文参考訳（メタデータ） (2020-06-19T05:08:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。