論文の概要: Revisiting Pre-trained Language Models for Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2507.16887v1
- Date: Tue, 22 Jul 2025 17:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.719981
- Title: Revisiting Pre-trained Language Models for Vulnerability Detection
- Title(参考訳): 脆弱性検出のための事前学習言語モデルの再検討
- Authors: Youpeng Li, Weiliang Qi, Xuyu Wang, Fuxun Yu, Xinda Wang,
- Abstract要約: プレトレーニング言語モデル(PLM)の急速な進歩は、様々なコード関連タスクに対して有望な結果を示した。
しかし、現実世界の脆弱性を検出する効果は依然として重要な課題である。
本稿では、より小さなコード固有のPLMと大規模PLMにまたがる17のPLMを広範囲に評価するRevisitVDを紹介する。
- 参考スコア(独自算出の注目度): 5.747350434960454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of pre-trained language models (PLMs) has demonstrated promising results for various code-related tasks. However, their effectiveness in detecting real-world vulnerabilities remains a critical challenge. % for the security community. While existing empirical studies evaluate PLMs for vulnerability detection (VD), their inadequate consideration in data preparation, evaluation setups, and experimental settings undermines the accuracy and comprehensiveness of evaluations. This paper introduces RevisitVD, an extensive evaluation of 17 PLMs spanning smaller code-specific PLMs and large-scale PLMs using newly constructed datasets. Specifically, we compare the performance of PLMs under both fine-tuning and prompt engineering, assess their effectiveness and generalizability across various training and testing settings, and analyze their robustness against code normalization, abstraction, and semantic-preserving transformations. Our findings reveal that, for VD tasks, PLMs incorporating pre-training tasks designed to capture the syntactic and semantic patterns of code outperform both general-purpose PLMs and those solely pre-trained or fine-tuned on large code corpora. However, these models face notable challenges in real-world scenarios, such as difficulties in detecting vulnerabilities with complex dependencies, handling perturbations introduced by code normalization and abstraction, and identifying semantic-preserving vulnerable code transformations. Also, the truncation caused by the limited context windows of PLMs can lead to a non-negligible amount of labeling errors. This study underscores the importance of thorough evaluations of model performance in practical scenarios and outlines future directions to help enhance the effectiveness of PLMs for realistic VD applications.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)の急速な進歩は、様々なコード関連タスクに対して有望な結果を示した。
しかし、現実世界の脆弱性を検出する効果は依然として重要な課題である。
%であった。
既存の実証実験では脆弱性検出(VD)のためのPLMを評価しているが、データ準備、評価設定、実験環境における不適切な考慮は、評価の正確性や包括性を損なう。
本稿では、新たに構築したデータセットを用いて、より小さなコード固有のPLMと大規模PLMにまたがる17のPLMを広範囲に評価するRevisitVDを紹介する。
具体的には、微調整と迅速なエンジニアリングの両方の下でのPLMの性能を比較し、各種トレーニングおよびテスト設定におけるそれらの有効性と一般化性を評価し、コード正規化、抽象化、セマンティック保存変換に対する堅牢性を分析する。
以上の結果から,VD タスクには,汎用 PLM と,大規模コードコーパス上でのみ事前学習や微調整を行うコードにおいて,構文的および意味的パターンをキャプチャする事前学習タスクが組み込まれていることがわかった。
しかしながら、これらのモデルは、複雑な依存関係による脆弱性の検出の困難、コードの正規化と抽象化によって導入された摂動の処理、セマンティック保存の脆弱なコード変換の特定など、現実世界のシナリオにおいて顕著な課題に直面している。
また、PLMの限られたコンテキストウィンドウによって引き起こされるトラクションは、無視できない量のラベリングエラーを引き起こす可能性がある。
本研究は,実用シナリオにおけるモデル性能の徹底的な評価の重要性を浮き彫りにして,現実的なVDアプリケーションにおけるPLMの有効性を高めるための今後の方向性を概説する。
関連論文リスト
- When Prompts Go Wrong: Evaluating Code Model Robustness to Ambiguous, Contradictory, and Incomplete Task Descriptions [23.5858385520752]
LLM(Large Language Models)は、理想的な条件下でのコード生成タスクの性能を示す。
実際には、タスク記述はしばしば曖昧さ、不完全性、内部矛盾を示す。
このような不明瞭なタスク記述に直面した場合、最先端のコード生成モデルの堅牢性を検証した最初の実証的研究を示す。
論文 参考訳(メタデータ) (2025-07-27T23:16:14Z) - Improving LLM Reasoning for Vulnerability Detection via Group Relative Policy Optimization [45.799380822683034]
大規模言語モデル(LLM)のためのRLベースファインタニング技術の進歩を目的とした広範な研究を提案する。
一般的に採用されているLSMには,特定の脆弱性を過度に予測する傾向があり,他の脆弱性を検出できない,といった,重要な制限が強調される。
この課題に対処するために、構造化されたルールベースの報酬を通してLLMの振る舞いを導くための最近の政策段階的手法であるグループ相対政策最適化(GRPO)について検討する。
論文 参考訳(メタデータ) (2025-07-03T11:52:45Z) - LLM Performance for Code Generation on Noisy Tasks [0.41942958779358674]
大規模言語モデル(LLM)は、テキストが人間の読み手には理解できないレベルまで難解なタスクを解くことができることを示す。
汚染されたデータセットと目に見えないデータセットの異なる性能劣化パターンの実証的証拠を報告する。
そこで本研究では, 難燃化下での性能低下を, データセット汚染検出の可能な戦略として提案する。
論文 参考訳(メタデータ) (2025-05-29T16:11:18Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching [0.9208007322096533]
大きな言語モデル(LLM)は、コード翻訳のようなタスクにおいて有望であることを示している。
本稿では,C コードの脆弱性を特定し,パッチする際の LLM の性能を評価するためのフレームワーク VulnLLMEval を紹介する。
私たちの研究には、Linuxカーネルから抽出された307の現実世界の脆弱性が含まれている。
論文 参考訳(メタデータ) (2024-09-16T22:00:20Z) - Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection [9.652886240532741]
本稿では,ソースコードの脆弱性検出における大規模言語モデルの機能について,徹底的に解析する。
我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-08-29T10:00:57Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Weak Supervision Performance Evaluation via Partial Identification [46.73061437177238]
Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。
本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。
提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Revisit Input Perturbation Problems for LLMs: A Unified Robustness
Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。
具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。
本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文 参考訳(メタデータ) (2023-10-10T10:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。