論文の概要: Rethinking the Capability of Fine-Tuned Language Models for Automated Vulnerability Repair
- arxiv url: http://arxiv.org/abs/2512.22633v1
- Date: Sat, 27 Dec 2025 16:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.15107
- Title: Rethinking the Capability of Fine-Tuned Language Models for Automated Vulnerability Repair
- Title(参考訳): 自動脆弱性修復のための微調整言語モデルの機能再考
- Authors: Woorim Han, Yeongjun Kwak, Miseon Yu, Kyeongmin Kim, Younghan Lee, Hyungon Moon, Yunheung Paek,
- Abstract要約: 微調整された言語モデルを利用する学習ベースの自動脆弱性修正(AVR)技術は、脆弱性パッチの生成を約束している。
私たちの経験的研究は、最先端のモデルはトレーニングセットに過度に適合し、相互に排他的でないトレーニング、検証、テストセットを用いて評価されることを明らかにします。
学習ベースに適したテストベースベンチマークであるL-AVRBenchを導入し、マッチングベースのメトリクスの限界を克服し、モデルの真の修復能力を検証した。
- 参考スコア(独自算出の注目度): 5.847724760751716
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning-based automated vulnerability repair (AVR) techniques that utilize fine-tuned language models have shown promise in generating vulnerability patches. However, questions remain about their ability to repair unseen vulnerabilities. Our empirical study reveals that state-of-the-art models often overfit to the training set and are evaluated using training, validation, and test sets that are not mutually exclusive. Furthermore, relying on match-based metrics that compare generated patches to reference fixes at the token level has some limitations, failing to account for the possibility of various valid ways to patch the vulnerability. In this paper, we examine the capabilities of state-of-the-art fine-tuned AVR models and the adequacy of match-based evaluation metrics in three ways. First, we apply semantic-preserving transformations to test sets in order to determine whether models truly learn robust vulnerability-repair patterns or simply rely on spurious features. Second, we re-split the training, validation, and test sets to be mutually exclusive and evaluate the models on the revised test set to assess their generalization capabilities. Third, we introduce L-AVRBench, a test-based benchmark tailored for learning-based AVR, to overcome the limitations of match-based metrics and examine the AVR models' true repair capabilities.
- Abstract(参考訳): 微調整された言語モデルを利用する学習ベースの自動脆弱性修正(AVR)技術は、脆弱性パッチの生成を約束している。
しかし、未確認の脆弱性を修復する能力についてはまだ疑問が残る。
私たちの経験的研究は、最先端のモデルはトレーニングセットに過度に適合し、相互に排他的でないトレーニング、検証、テストセットを用いて評価されることを明らかにします。
さらに、生成されたパッチとトークンレベルでの参照修正を比較するマッチベースのメトリクスに依存するには、いくつかの制限がある。
本稿では,最先端の微調整AVRモデルの能力とマッチングに基づく評価指標の妥当性を3つの方法で検討する。
まず、モデルが真に堅牢な脆弱性修復パターンを学習しているか、あるいは単に突発的な機能に依存するのかを判断するために、セマンティック保存変換をテストセットに適用する。
第2に、トレーニング、検証、テストセットを相互に排他的に分割し、修正されたテストセットのモデルを評価し、それらの一般化能力を評価する。
第3に、学習ベースのAVRに適したテストベースのベンチマークであるL-AVRBenchを導入し、マッチベースのメトリクスの限界を克服し、AVRモデルの真の修復能力を検証した。
関連論文リスト
- Semantics-Aligned, Curriculum-Driven, and Reasoning-Enhanced Vulnerability Repair Framework [15.17681731375364]
SeCuRepairは、セマンティクスに準拠し、カリキュラム駆動で、脆弱性修復のための推論強化フレームワークである。
コアとなるSeCuRepairは、理由と脆弱性の修正方法をモデルに明記する必要がある、合理的に編集されたパラダイムを採用している。
SeCuRepairはまた、従来の教師付き微調整を超えて、セマンティックス対応の強化学習を採用している。
論文 参考訳(メタデータ) (2025-10-01T15:09:27Z) - RePaCA: Leveraging Reasoning Large Language Models for Static Automated Patch Correctness Assessment [0.0]
本稿では,Large Language Models (LLM) を利用した新しい静的APCA手法であるRePaCAを紹介する。
提案手法は,83.1%の精度と84.8%のF1スコアで最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T11:21:09Z) - It Only Gets Worse: Revisiting DL-Based Vulnerability Detectors from a Practical Perspective [14.271145160443462]
VulTegraは、脆弱性検出のためのスクラッチトレーニングされたDLモデルと事前トレーニングされたDLモデルを比較する。
最先端のSOTA(State-of-the-art)検出器は、依然として低い一貫性、限られた現実世界能力、スケーラビリティの課題に悩まされている。
論文 参考訳(メタデータ) (2025-07-13T08:02:56Z) - ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。
このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。
実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文 参考訳(メタデータ) (2025-02-16T16:31:00Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Uncovering the Limits of Machine Learning for Automatic Vulnerability Detection [12.529028629599349]
本稿では,ML4VD技術の真の性能と限界をよりよく評価するための新しいベンチマーク手法を提案する。
6つのML4VD技術と2つのデータセットを使用して、(a)テストデータの脆弱性を予測するために、最先端のモデルが無関係な機能に過度に適合していること、(b)データ拡張によって得られるパフォーマンスが、トレーニング中に適用される特定の拡張を超えて一般化されないことを発見した。
論文 参考訳(メタデータ) (2023-06-28T08:41:39Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - A Principled Approach to Failure Analysis and Model Repairment:
Demonstration in Medical Imaging [12.732665048388041]
マシンラーニングモデルは通常、デプロイ後の予期せぬ失敗を示す。
私たちは2つの重要な質問に答えることで、このプロセスの標準化と原則の導入を目指しています。
そこで本研究では,タイプ内および型間一般化の測定により,特定された障害タイプの品質を検証できることを示唆する。
我々は,以前に正しいデータの性能を維持しつつ,失敗タイプに対して高い精度を達成できた場合,モデルを修復すると考えることができると論じる。
論文 参考訳(メタデータ) (2021-09-25T12:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。