論文の概要: EvalSVA: Multi-Agent Evaluators for Next-Gen Software Vulnerability Assessment
- arxiv url: http://arxiv.org/abs/2501.14737v1
- Date: Wed, 11 Dec 2024 08:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 07:48:15.437500
- Title: EvalSVA: Multi-Agent Evaluators for Next-Gen Software Vulnerability Assessment
- Title(参考訳): EvalSVA: 次世代ソフトウェア脆弱性評価のためのマルチエージェント評価器
- Authors: Xin-Cheng Wen, Jiaxin Ye, Cuiyun Gao, Lianwei Wu, Qing Liao,
- Abstract要約: ソフトウェア脆弱性(SV)評価のさまざまな側面を自律的に検討し,評価するために,マルチエージェント評価チームであるEvalSVAを紹介した。
EvalSVAは人間のようなプロセスを提供し、SVアセスメントの理由と答えの両方を生成する。
- 参考スコア(独自算出の注目度): 17.74561647070259
- License:
- Abstract: Software Vulnerability (SV) assessment is a crucial process of determining different aspects of SVs (e.g., attack vectors and scope) for developers to effectively prioritize efforts in vulnerability mitigation. It presents a challenging and laborious process due to the complexity of SVs and the scarcity of labeled data. To mitigate the above challenges, we introduce EvalSVA, a multi-agent evaluators team to autonomously deliberate and evaluate various aspects of SV assessment. Specifically, we propose a multi-agent-based framework to simulate vulnerability assessment strategies in real-world scenarios, which employs multiple Large Language Models (LLMs) into an integrated group to enhance the effectiveness of SV assessment in the limited data. We also design diverse communication strategies to autonomously discuss and assess different aspects of SV. Furthermore, we construct a multi-lingual SV assessment dataset based on the new standard of CVSS, comprising 699, 888, and 1,310 vulnerability-related commits in C++, Python, and Java, respectively. Our experimental results demonstrate that EvalSVA averagely outperforms the 44.12\% accuracy and 43.29\% F1 for SV assessment compared with the previous methods. It shows that EvalSVA offers a human-like process and generates both reason and answer for SV assessment. EvalSVA can also aid human experts in SV assessment, which provides more explanation and details for SV assessment.
- Abstract(参考訳): ソフトウェア脆弱性評価(SV、Software Vulnerability Assessment)は、SVのさまざまな側面(例えばアタックベクターとスコープ)を決定する重要なプロセスである。
SVの複雑さとラベル付きデータの不足により、困難で退屈なプロセスが提示される。
以上の課題を軽減するため,多エージェント評価チームであるEvalSVAを導入し,SV評価のさまざまな側面を自律的に評価する。
具体的には,複数の大規模言語モデル(LLM)を統合グループに導入し,限られたデータにおけるSV評価の有効性を高める,現実シナリオにおける脆弱性評価戦略をシミュレートするマルチエージェントベースのフレームワークを提案する。
また,SVのさまざまな側面を自律的に議論し,評価するための多様なコミュニケーション戦略を設計する。
さらに,C++,Python,Javaの699,888,1,310の脆弱性関連コミットからなるCVSSの新しい標準に基づく多言語SVアセスメントデータセットを構築した。
EvalSVAは, SV評価において平均44.12\%, 43.29\% F1を上回った。
EvalSVAは人間的なプロセスを提供し、SVアセスメントの理由と答えの両方を生成する。
EvalSVAはまた、SVアセスメントの人間専門家を支援することができ、SVアセスメントのさらなる説明と詳細を提供する。
関連論文リスト
- HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - ASVspoof 5: Crowdsourced Speech Data, Deepfakes, and Adversarial Attacks at Scale [59.25180900687571]
ASVspoof 5は、音声スプーフとディープフェイク攻撃の研究を促進する一連の課題の第5版である。
本稿では,2つの課題トラック,新しいデータベース,評価指標,評価プラットフォームについて述べる。
論文 参考訳(メタデータ) (2024-08-16T13:37:20Z) - Mitigating Data Imbalance for Software Vulnerability Assessment: Does Data Augmentation Help? [0.0]
CVSS(Common Vulnerability Scoring System)タスクにおけるモデルの予測性能は,データ不均衡の軽減によって著しく向上することを示す。
また、ランダムなテキスト挿入、削除、置換といった単純なテキスト拡張は、ボード全体のベースラインよりも優れていることもわかりました。
論文 参考訳(メタデータ) (2024-07-15T13:47:55Z) - Unveiling the Achilles' Heel of NLG Evaluators: A Unified Adversarial Framework Driven by Large Language Models [52.368110271614285]
我々は,NLG評価器に対する新しいブラックボックス対逆フレームワークであるAdvEvalを紹介する。
AdvEvalは、人間と被害者の評価者との強い意見の相違をもたらすデータを生成するために特別に調整されている。
我々は,12名の被害者評価者と11名のNLGデータセットを用いて,対話,要約,質問評価などのタスクを分散した実験を行った。
論文 参考訳(メタデータ) (2024-05-23T14:48:15Z) - Towards single integrated spoofing-aware speaker verification embeddings [63.42889348690095]
本研究は,1つの統合スプーフィング対応話者検証埋め込みを開発することを目的とする。
単一のSASV埋め込みの劣った性能は、不十分なトレーニングデータから得られると分析する。
実験では、SASV2022チャレンジの評価プロトコルにおいて、SASV-EERが1.06%に達するという劇的な改善が示された。
論文 参考訳(メタデータ) (2023-05-30T14:15:39Z) - Tackling Spoofing-Aware Speaker Verification with Multi-Model Fusion [88.34134732217416]
この研究は、融合に基づくSASVソリューションに焦点を当て、複数の最先端 ASV と CM モデルのパワーを利用するマルチモデル融合フレームワークを提案する。
提案したフレームワークはSASV-EERを8.75%から1.17%に大幅に改善している。
論文 参考訳(メタデータ) (2022-06-18T06:41:06Z) - Design Guidelines for Inclusive Speaker Verification Evaluation Datasets [0.6015898117103067]
話者検証(SV)は、アクセス制御を備えた数十億の音声対応デバイスを提供し、音声駆動技術のセキュリティを保証する。
現在のSV評価プラクティスは偏見を評価するには不十分であり、実際の使用シナリオを代表してではなく、過度に単純化され、ユーザを集約している。
本稿では,これらの欠点に対処するSV評価データセットを構築するための設計ガイドラインを提案する。
論文 参考訳(メタデータ) (2022-04-05T15:28:26Z) - On the Use of Fine-grained Vulnerable Code Statements for Software
Vulnerability Assessment Models [0.0]
実世界の200のプロジェクトで429のSVの1,782の関数から得られた大規模データを用いて,関数レベルのSVアセスメントタスクのための機械学習モデルを開発した。
脆弱な文のサイズは5.8倍小さいが、7.5-114.5%以上の評価性能を示す。
論文 参考訳(メタデータ) (2022-03-16T06:29:40Z) - DeepCVA: Automated Commit-level Vulnerability Assessment with Deep
Multi-task Learning [0.0]
本稿では、7つのコミットレベルの脆弱性評価タスクを同時に自動化する新しいDeep Multi-task Learning Model、DeepCVAを提案する。
実際のソフトウェアプロジェクト246のプロジェクトで,542の異なるSVを含む1,229の脆弱性コントリビュートコミットに対して大規模な実験を行った。
DeepCVAは、多くの教師なしベースラインモデルよりも38%から59.8%高いマシューズ相関係数を持つ最高の性能モデルである。
論文 参考訳(メタデータ) (2021-08-18T08:43:36Z) - A Survey on Data-driven Software Vulnerability Assessment and
Prioritization [0.0]
ソフトウェア脆弱性(SV)は複雑さと規模が増加しており、多くのソフトウェアシステムに重大なセキュリティリスクを生じさせている。
機械学習やディープラーニングといったデータ駆動技術は、SVの評価と優先順位付けを次のレベルに引き上げた。
論文 参考訳(メタデータ) (2021-07-18T04:49:22Z) - Tandem Assessment of Spoofing Countermeasures and Automatic Speaker
Verification: Fundamentals [59.34844017757795]
同一誤差率(EER)測定値を用いて,スプーフィング対策(CM)の信頼性を測る。
本稿では,タンデム検出コスト関数(t-DCF)の新たな拡張について述べる。
CMアセスメントにおけるt-DCFの導入は、アンチ・スプーフィングとASV研究コミュニティの緊密な連携を促進するのに役立つと期待されている。
論文 参考訳(メタデータ) (2020-07-12T12:44:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。