論文の概要: Do Language Models Learn Semantics of Code? A Case Study in
Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2311.04109v1
- Date: Tue, 7 Nov 2023 16:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 14:45:08.452996
- Title: Do Language Models Learn Semantics of Code? A Case Study in
Vulnerability Detection
- Title(参考訳): 言語モデルはコードのセマンティクスを学ぶか?
脆弱性検出のケーススタディ
- Authors: Benjamin Steenhoek, Md Mahbubur Rahman, Shaila Sharmin, and Wei Le
- Abstract要約: 我々は,解釈可能性ツール,注意分析,相互作用行列解析という3つの異なる手法を用いてモデルを解析する。
モデル入力内のバグセマンティクスをハイライトする2つのアノテーション手法を開発した。
この結果から,より複雑なパスベースのバグセマンティクスを学習する上で,モデルにバグセマンティクスの情報を提供し,モデルがそれに参加することができることを示唆した。
- 参考スコア(独自算出の注目度): 7.725755567907359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, pretrained language models have shown state-of-the-art performance
on the vulnerability detection task. These models are pretrained on a large
corpus of source code, then fine-tuned on a smaller supervised vulnerability
dataset. Due to the different training objectives and the performance of the
models, it is interesting to consider whether the models have learned the
semantics of code relevant to vulnerability detection, namely bug semantics,
and if so, how the alignment to bug semantics relates to model performance. In
this paper, we analyze the models using three distinct methods:
interpretability tools, attention analysis, and interaction matrix analysis. We
compare the models' influential feature sets with the bug semantic features
which define the causes of bugs, including buggy paths and Potentially
Vulnerable Statements (PVS). We find that (1) better-performing models also
aligned better with PVS, (2) the models failed to align strongly to PVS, and
(3) the models failed to align at all to buggy paths. Based on our analysis, we
developed two annotation methods which highlight the bug semantics inside the
model's inputs. We evaluated our approach on four distinct transformer models
and four vulnerability datasets and found that our annotations improved the
models' performance in the majority of settings - 11 out of 16, with up to 9.57
points improvement in F1 score compared to conventional fine-tuning. We further
found that with our annotations, the models aligned up to 232% better to
potentially vulnerable statements. Our findings indicate that it is helpful to
provide the model with information of the bug semantics, that the model can
attend to it, and motivate future work in learning more complex path-based bug
semantics. Our code and data are available at
https://figshare.com/s/4a16a528d6874aad51a0.
- Abstract(参考訳): 近年,プリトレーニングされた言語モデルが脆弱性検出タスクにおいて最先端のパフォーマンスを示している。
これらのモデルはソースコードの大規模なコーパスで事前トレーニングされ、より小さな教師付き脆弱性データセットで微調整される。
異なるトレーニング目標とモデルの性能のため、モデルが脆弱性検出、すなわちバグセマンティクスに関連するコードのセマンティクスを学習したかどうか、そしてもしバグセマンティクスへのアライメントがモデルのパフォーマンスにどのように関係しているかを考察することは興味深い。
本稿では,解釈ツール,注意分析,相互作用行列分析という3つの異なる手法を用いてモデル解析を行う。
モデルに影響を及ぼす機能セットとバグの原因を定義するバグセマンティクス機能を比較し,バグパスや潜在的に脆弱なステートメント(pvs)などを比較した。
1) 優れた性能のモデルもPSVとよく一致し,(2) モデルがPSVと強く一致しなかったこと,(3) モデルがバグのあるパスと全く一致しなかったこと,などが判明した。
本分析に基づいて,モデル入力内のバグセマンティクスを強調するアノテーション手法を2つ開発した。
4つの異なるトランスフォーマーモデルと4つの脆弱性データセットに対するアプローチを評価した結果、アノテーションは16のうち11でモデルのパフォーマンスを改善し、従来の微調整と比べて最大9.57ポイント改善しました。
さらに、アノテーションによってモデルが、潜在的に脆弱なステートメントに対して最大232%改善されていることも分かりました。
この結果から,モデルが対応できるバグセマンティクスに関する情報をモデルに提供することは有用であり,より複雑なパスベースのバグセマンティクスを学ぶための今後の作業の動機となることが示唆された。
私たちのコードとデータはhttps://figshare.com/s/4a16a528d6874aad51a0で利用可能です。
関連論文リスト
- Towards Causal Deep Learning for Vulnerability Detection [31.59558109518435]
ソフトウェア工学モデルに計算に基づく因果学習を導入する。
以上の結果から,CausalVulはモデル精度,ロバスト性,OOD性能を一貫して改善した。
論文 参考訳(メタデータ) (2023-10-12T00:51:06Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - An Empirical Study of Deep Learning Models for Vulnerability Detection [4.243592852049963]
我々は、広く使われている2つの脆弱性検出データセット上で、最先端の9つのディープラーニングモデルを調査し、再現した。
モデル能力,トレーニングデータ,モデル解釈について検討した。
我々の研究結果は、モデル結果の理解を深め、トレーニングデータ作成のガイダンスを提供し、モデルの堅牢性を向上させるのに役立つ。
論文 参考訳(メタデータ) (2022-12-15T19:49:34Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Towards Trustworthy Deception Detection: Benchmarking Model Robustness
across Domains, Modalities, and Languages [10.131671217810581]
我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。
我々は、追加の画像コンテンツを入力として、ELMo埋め込みはBERTまたはGLoVeと比較して大幅に少ないエラーをもたらすことを発見しました。
論文 参考訳(メタデータ) (2021-04-23T18:05:52Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z) - Debugging Tests for Model Explanations [18.073554618753395]
テストされたメソッドは、急激なバックグラウンドバグを診断することができるが、誤ってラベル付けされたトレーニング例を決定的に識別することはできない。
被験者は属性を用いて欠陥モデルを特定するのに失敗するが、主にモデル予測に頼っている。
論文 参考訳(メタデータ) (2020-11-10T22:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。