Fugu-MT 論文翻訳(概要): Limits of Machine Learning for Automatic Vulnerability Detection

論文の概要: Limits of Machine Learning for Automatic Vulnerability Detection

arxiv url: http://arxiv.org/abs/2306.17193v1
Date: Wed, 28 Jun 2023 08:41:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-03 14:31:03.463989
Title: Limits of Machine Learning for Automatic Vulnerability Detection
Title（参考訳）: 自動脆弱性検出のための機械学習の限界
Authors: Niklas Risse, Marcel B\"ohme
Abstract要約: 自動脆弱性検出のための機械学習の最近の成果は非常に有望である。しかし、これらの結果が一般的なものであり、データセットに特有でないことをどうやって知るのか? トレーニングセットまたはテストセットの増幅中に意味保存変換を適用するクロスバリデーションアルゴリズムを提案する。改善されたロバスト性は、トレーニングデータ増幅時に使用される特定の変換にのみ適用される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent results of machine learning for automatic vulnerability detection have been very promising indeed: Given only the source code of a function $f$, models trained by machine learning techniques can decide if $f$ contains a security flaw with up to 70% accuracy. But how do we know that these results are general and not specific to the datasets? To study this question, researchers proposed to amplify the testing set by injecting semantic preserving changes and found that the model's accuracy significantly drops. In other words, the model uses some unrelated features during classification. In order to increase the robustness of the model, researchers proposed to train on amplified training data, and indeed model accuracy increased to previous levels. In this paper, we replicate and continue this investigation, and provide an actionable model benchmarking methodology to help researchers better evaluate advances in machine learning for vulnerability detection. Specifically, we propose (i) a cross validation algorithm, where a semantic preserving transformation is applied during the amplification of either the training set or the testing set, and (ii) the amplification of the testing set with code snippets where the vulnerabilities are fixed. Using 11 transformations, 3 ML techniques, and 2 datasets, we find that the improved robustness only applies to the specific transformations used during training data amplification. In other words, the robustified models still rely on unrelated features for predicting the vulnerabilities in the testing data. Additionally, we find that the trained models are unable to generalize to the modified setting which requires to distinguish vulnerable functions from their patches.
Abstract（参考訳）: 関数のソースコードのみを$f$とすれば、マシンラーニングテクニックによってトレーニングされたモデルは、$f$が最大70%の精度でセキュリティ上の欠陥を含むかどうかを判断できる。しかし、これらの結果が汎用的でデータセットに固有のものではないことをどうやって知るのか? この質問を研究するために、研究者はセマンティクス保存の変更を注入することでテストセットの増幅を提案し、モデルの精度が大幅に低下することを発見した。言い換えると、このモデルは分類中にいくつかの無関係な特徴を使用する。モデルの堅牢性を高めるために、研究者は増幅されたトレーニングデータをトレーニングすることを提案した。本稿では,本研究を再現・継続し,研究者が脆弱性検出のための機械学習の進歩をよりよく評価する上で有効なモデルベンチマーク手法を提案する。具体的には (i)トレーニングセットまたはテストセットの増幅中に意味保存変換を適用するクロス検証アルゴリズム (ii)脆弱性が修正されたコードスニペットによるテストセットの増幅。 11の変換、3つのMLテクニック、2つのデータセットを使用して、改善された堅牢性は、トレーニングデータ増幅時に使用される特定の変換にのみ適用される。言い換えれば、堅牢化モデルはテストデータの脆弱性を予測するために、いまだ無関係な機能に依存しています。さらに、トレーニングされたモデルでは、脆弱性のある機能をパッチと区別する必要のある修正された設定に一般化できないことも分かりました。

関連論文リスト

RePaCA: Leveraging Reasoning Large Language Models for Static Automated Patch Correctness Assessment [0.0]
本稿では,Large Language Models (LLM) を利用した新しい静的APCA手法であるRePaCAを紹介する。提案手法は,83.1%の精度と84.8%のF1スコアで最先端の性能を実現する。
論文参考訳（メタデータ） (2025-07-30T11:21:09Z)
Instance-Level Data-Use Auditing of Visual ML Models [47.369572284751285]
機械学習(ML)システムにおけるデータの使用に関する法的論争の高まりは、信頼性の高いデータ利用監査機構の必要性を強調している。本稿では、データ所有者がMLモデルにおける個々のデータインスタンスの使用を監査できるように設計された、最初のプロアクティブなインスタンスレベルのデータ利用監査手法を提案する。
論文参考訳（メタデータ） (2025-03-28T13:28:57Z)
Code Change Intention, Development Artifact and History Vulnerability: Putting Them Together for Vulnerability Fix Detection by LLM [13.278153690972243]
VulFixMinerとCoLeFunDaは、開発アーティファクトから必須のコンテキストを無視して、コードの変更のみに焦点を当てている。 LLM4VFD(Large Language Models (LLMs)) とChain-of-Thought推論とIn-Context Learningを併用した新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-24T23:40:03Z)
Verifying Machine Unlearning with Explainable AI [46.7583989202789]
港の前面監視における機械学習(MU)の検証における説明可能なAI(XAI)の有効性について検討する。私たちの概念実証は、従来のメトリクスを超えて拡張されたMUの革新的な検証ステップとして属性機能を導入しています。本稿では,これらの手法の有効性を評価するために,熱マップカバレッジ(HC)とアテンションシフト(AS)の2つの新しいXAI指標を提案する。
論文参考訳（メタデータ） (2024-11-20T13:57:32Z)
Exploring and Lifting the Robustness of LLM-powered Automated Program Repair with Metamorphic Testing [31.165102332393964]
大規模言語モデルを用いた自動プログラム修復(LAPR)技術は、最先端のバグ修正性能を達成した。実際に展開する前に、LAPR技術で堅牢性テストを実施することが不可欠である。 LAPR技術専用のメタモルフィックテスティングフレームワークであるMT-LAPRを提案する。
論文参考訳（メタデータ） (2024-10-10T01:14:58Z)
$\textit{X}^2$-DFD: A framework for e${X}$plainable and e${X}$tendable Deepfake Detection [52.14468236527728]
3つのコアモジュールからなる新しいフレームワークX2$-DFDを提案する。最初のモジュールであるモデル特徴評価(MFA)は、MLLMに固有の偽機能の検出能力を計測し、これらの機能の下位ランキングを提供する。第2のモジュールであるStrong Feature Strengthening (SFS)は、上位機能に基づいて構築されたデータセット上でMLLMを微調整することで、検出と説明機能を強化する。第3のモジュールであるWak Feature Supplementing (WFS)は、外部専用の機能を統合することで、低階機能における微調整MLLMの機能を改善する。
論文参考訳（メタデータ） (2024-10-08T15:28:33Z)
Top Score on the Wrong Exam: On Benchmarking in Machine Learning for Vulnerability Detection [12.529028629599349]
我々は、最も人気のあるML4VDデータセットにおいて、脆弱な機能と非脆弱性な機能の両方について研究する。ほとんどすべてのケースにおいて、この決定は、それ以上の文脈なしでは行われない。 ML4VDの現在の問題ステートメントは未定義であり、この成長する作業体の内部的妥当性に疑問を呈する。
論文参考訳（メタデータ） (2024-08-23T11:08:49Z)
Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models [8.167614500821223]
脆弱性検出のためのMSIVD, マルチタスクによる自己指示型微調整を, チェーン・オブ・シント・プロンプトとLDMによる自己指示にインスパイアした。実験の結果,MSIVDは高い性能を示し,LineVul(LLMベースの脆弱性検出ベースライン)はBigVulデータセットでは0.92点,PreciseBugsデータセットでは0.48点であった。
論文参考訳（メタデータ） (2024-06-09T19:18:05Z)
To Err is Machine: Vulnerability Detection Challenges LLM Reasoning [8.602355712876815]
脆弱性検出という,困難なコード推論タスクを提示する。最新のSOTA(State-of-the-art)モデルでは,脆弱性検出評価では54.5%のバランスド精度しか報告されていない。脆弱性検出を克服するためには、新しいモデル、新しいトレーニング方法、あるいはもっと実行固有の事前トレーニングデータが必要になるかもしれない。
論文参考訳（メタデータ） (2024-03-25T21:47:36Z)
Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文参考訳（メタデータ） (2024-03-04T16:21:54Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)
CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文参考訳（メタデータ） (2023-09-30T12:30:25Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)
Practical Machine Learning Safety: A Survey and Primer [81.73857913779534]
自動運転車のような安全クリティカルなアプリケーションにおける機械学習アルゴリズムのオープンワールド展開は、さまざまなML脆弱性に対処する必要がある。一般化エラーを低減し、ドメイン適応を実現し、外乱例や敵攻撃を検出するための新しいモデルと訓練技術。我々の組織は、MLアルゴリズムの信頼性を異なる側面から向上するために、最先端のML技術を安全戦略にマッピングする。
論文参考訳（メタデータ） (2021-06-09T05:56:42Z)
Transfer Learning without Knowing: Reprogramming Black-box Machine Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。 BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文参考訳（メタデータ） (2020-07-17T01:52:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。