Fugu-MT 論文翻訳(概要): On the Use of Fine-grained Vulnerable Code Statements for Software Vulnerability Assessment Models

論文の概要: On the Use of Fine-grained Vulnerable Code Statements for Software Vulnerability Assessment Models

arxiv url: http://arxiv.org/abs/2203.08417v1
Date: Wed, 16 Mar 2022 06:29:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-18 02:00:46.696080
Title: On the Use of Fine-grained Vulnerable Code Statements for Software Vulnerability Assessment Models
Title（参考訳）: ソフトウェア脆弱性評価モデルにおけるきめ細かい脆弱性コード文の利用について
Authors: Triet H. M. Le, M. Ali Babar
Abstract要約: 実世界の200のプロジェクトで429のSVの1,782の関数から得られた大規模データを用いて,関数レベルのSVアセスメントタスクのための機械学習モデルを開発した。脆弱な文のサイズは5.8倍小さいが、7.5-114.5%以上の評価性能を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many studies have developed Machine Learning (ML) approaches to detect Software Vulnerabilities (SVs) in functions and fine-grained code statements that cause such SVs. However, there is little work on leveraging such detection outputs for data-driven SV assessment to give information about exploitability, impact, and severity of SVs. The information is important to understand SVs and prioritize their fixing. Using large-scale data from 1,782 functions of 429 SVs in 200 real-world projects, we investigate ML models for automating function-level SV assessment tasks, i.e., predicting seven Common Vulnerability Scoring System (CVSS) metrics. We particularly study the value and use of vulnerable statements as inputs for developing the assessment models because SVs in functions are originated in these statements. We show that vulnerable statements are 5.8 times smaller in size, yet exhibit 7.5-114.5% stronger assessment performance (Matthews Correlation Coefficient (MCC)) than non-vulnerable statements. Incorporating context of vulnerable statements further increases the performance by up to 8.9% (0.64 MCC and 0.75 F1-Score). Overall, we provide the initial yet promising ML-based baselines for function-level SV assessment, paving the way for further research in this direction.
Abstract（参考訳）: 多くの研究が、ソフトウェア脆弱性(SV)を関数で検出する機械学習(ML)アプローチと、そのようなSVを引き起こす細かいコード文を開発した。しかし、データ駆動型SVアセスメントにそのような検出出力を活用することで、SVのエクスプロイラビリティ、影響、重大さに関する情報を提供することはほとんどない。情報はSVを理解し、修正を優先順位付けすることが重要です。実世界の200のプロジェクトで429のSVの1,782の関数の大規模データを用いて,機能レベルのSVアセスメントタスクを自動化するMLモデル,すなわち,CVSS(Common Vulnerability Scoring System)の7つのメトリクスを予測する。特に,機能内のSVがこれらのステートメントに起源を持つため,アセスメントモデルを開発するための入力として脆弱なステートメントの価値と使用について検討する。脆弱なステートメントはサイズが5.8倍小さいが,評価性能が7.5-114.5%向上している(matthews correlation coefficient (mcc))。脆弱なステートメントを組み込むと、パフォーマンスはさらに8.9%向上する(0.64 MCCと0.75 F1-Score)。全体として、機能レベルのSV評価のためのMLベースのベースラインを最初に提供し、この方向へのさらなる研究の道を開く。

関連論文リスト

VLAI: A RoBERTa-Based Model for Automated Vulnerability Severity Classification [49.1574468325115]
RoBERTa上に構築されたVLAIは、60万以上の現実世界の脆弱性に微調整されている。モデルとデータセットはオープンソースで、Vulnerability-Lookupサービスに統合されている。
論文参考訳（メタデータ） (2025-07-04T14:28:14Z)
SecVulEval: Benchmarking LLMs for Real-World C/C++ Vulnerability Detection [8.440793630384546]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。高品質なデータセットがないため、脆弱性検出の有効性を評価するのは難しい。このベンチマークには、1999年から2024年までのC/C++プロジェクトで5,867のCVEをカバーする25,440の関数サンプルが含まれている。
論文参考訳（メタデータ） (2025-05-26T11:06:03Z)
Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-03-06T15:36:06Z)
LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文参考訳（メタデータ） (2025-03-04T12:55:07Z)
Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文参考訳（メタデータ） (2025-02-03T18:43:36Z)
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。現在のアセスメント手法は、従来のタスクからAIアノテートされた好みラベルに依存している。 VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがるベンチマークである。
論文参考訳（メタデータ） (2024-11-26T14:08:34Z)
Automated Code-centric Software Vulnerability Assessment: How Far Are We? An Empirical Study in C/C++ [0.716879432974126]
C/C++における関数レベルのSV評価のための機械学習(ML)モデルとディープラーニング(DL)モデルの性能を調査・比較するための最初の実証的研究を行った。 MLは,関数レベルのSV評価のための多クラスDLモデルと比較して,トレーニング時間を大幅に短縮して,マッチングや性能が向上していることを示す。
論文参考訳（メタデータ） (2024-07-24T07:26:58Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
Mitigating Data Imbalance for Software Vulnerability Assessment: Does Data Augmentation Help? [0.0]
CVSS(Common Vulnerability Scoring System)タスクにおけるモデルの予測性能は,データ不均衡の軽減によって著しく向上することを示す。また、ランダムなテキスト挿入、削除、置換といった単純なテキスト拡張は、ボード全体のベースラインよりも優れていることもわかりました。
論文参考訳（メタデータ） (2024-07-15T13:47:55Z)
What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases [87.65903426052155]
データから潜在視覚言語スキルの発見を目的とした大規模な移動学習実験を行った。生成タスクが長さバイアスに悩まされることを示し、ベンチマークは出力長の異なるタスクのバランスをとるべきであることを示唆する。我々は新しいデータセットOLIVEを提示し、そこでユーザーの指示をシミュレーションし、テストしたすべてのデータセットと異なる課題を提示します。
論文参考訳（メタデータ） (2024-04-03T02:40:35Z)
Are Latent Vulnerabilities Hidden Gems for Software Vulnerability Prediction? An Empirical Study [4.830367174383139]
潜伏脆弱な関数は、平均でSVの数を4倍増やし、5kの誤ラベル関数を修正できる。ノイズにもかかわらず、最先端のSV予測モデルがそのような潜伏SVの利点を大いに享受できることが示される。
論文参考訳（メタデータ） (2024-01-20T03:36:01Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。自己監督評価と人監督評価との間には強い相関関係が認められた。
論文参考訳（メタデータ） (2023-06-23T17:59:09Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)
DeepCVA: Automated Commit-level Vulnerability Assessment with Deep Multi-task Learning [0.0]
本稿では、7つのコミットレベルの脆弱性評価タスクを同時に自動化する新しいDeep Multi-task Learning Model、DeepCVAを提案する。実際のソフトウェアプロジェクト246のプロジェクトで,542の異なるSVを含む1,229の脆弱性コントリビュートコミットに対して大規模な実験を行った。 DeepCVAは、多くの教師なしベースラインモデルよりも38%から59.8%高いマシューズ相関係数を持つ最高の性能モデルである。
論文参考訳（メタデータ） (2021-08-18T08:43:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。