論文の概要: CYBERSECEVAL 3: Advancing the Evaluation of Cybersecurity Risks and Capabilities in Large Language Models
- arxiv url: http://arxiv.org/abs/2408.01605v1
- Date: Fri, 2 Aug 2024 23:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-06 19:20:31.925301
- Title: CYBERSECEVAL 3: Advancing the Evaluation of Cybersecurity Risks and Capabilities in Large Language Models
- Title(参考訳): CYBERSECEVAL 3:大規模言語モデルにおけるサイバーセキュリティリスクと能力の評価の改善
- Authors: Shengye Wan, Cyrus Nikolaidis, Daniel Song, David Molnar, James Crnkovich, Jayson Grace, Manish Bhatt, Sahana Chennabasappa, Spencer Whitman, Stephanie Ding, Vlad Ionescu, Yue Li, Joshua Saxe,
- Abstract要約: CYBERSECEVAL 3は、サードパーティに対するリスクと、アプリケーション開発者とエンドユーザに対するリスクという、2つの幅広いカテゴリの8つの異なるリスクを評価します。
これまでの研究と比較して、攻撃的セキュリティ機能に焦点を当てた新たな分野として、ソーシャルエンジニアリングの自動化、手動攻撃型サイバーオペレーションのスケーリング、自動攻撃型サイバーオペレーションがあります。
- 参考スコア(独自算出の注目度): 2.2779399250291577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We are releasing a new suite of security benchmarks for LLMs, CYBERSECEVAL 3, to continue the conversation on empirically measuring LLM cybersecurity risks and capabilities. CYBERSECEVAL 3 assesses 8 different risks across two broad categories: risk to third parties, and risk to application developers and end users. Compared to previous work, we add new areas focused on offensive security capabilities: automated social engineering, scaling manual offensive cyber operations, and autonomous offensive cyber operations. In this paper we discuss applying these benchmarks to the Llama 3 models and a suite of contemporaneous state-of-the-art LLMs, enabling us to contextualize risks both with and without mitigations in place.
- Abstract(参考訳): LLMのための新しいセキュリティベンチマークであるCYBERSECEVAL 3をリリースし、LLMのサイバーセキュリティのリスクと能力を実証的に測定する議論を継続する。
CYBERSECEVAL 3は、サードパーティに対するリスクと、アプリケーション開発者とエンドユーザに対するリスクという、2つの幅広いカテゴリの8つの異なるリスクを評価します。
これまでの研究と比較して、攻撃的セキュリティ機能に焦点を当てた新たな分野として、ソーシャルエンジニアリングの自動化、手動攻撃型サイバーオペレーションのスケーリング、自動攻撃型サイバーオペレーションがあります。
本稿では,これらのベンチマークをLlama 3モデルと同時期LLMのスイートに適用し,リスクを軽減・回避できる可能性について論じる。
関連論文リスト
- Llama-3.1-FoundationAI-SecurityLLM-Base-8B Technical Report [50.268821168513654]
我々は,Llama 3.1アーキテクチャ上に構築された,サイバーセキュリティにフォーカスした大規模言語モデル(LLM)であるFoundation-Sec-8Bを紹介する。
我々は、Llama 3.1-70B と GPT-4o-mini がサイバーセキュリティ固有のタスクで一致していることを示し、確立された新しいサイバーセキュリティベンチマークと新しいサイバーセキュリティベンチマークの両方で評価した。
当社のモデルを一般公開することで、公開とプライベート両方のサイバーセキュリティ状況において、AI駆動ツールの進歩と採用を加速することを目指しています。
論文 参考訳(メタデータ) (2025-04-28T08:41:12Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - OCCULT: Evaluating Large Language Models for Offensive Cyber Operation Capabilities [0.0]
我々は、実世界の攻撃的サイバー操作の実現とスケーリングに向けたAIの進歩を評価するための新しいアプローチを実証する。
我々は、サイバーセキュリティの専門家が厳格かつ反復可能な測定に貢献できる軽量な運用評価フレームワークであるOCCULTについて詳述する。
私たちは、現実的なサイバー脅威をスケールするためにAIが使用されるリスクが、最近著しく進歩していることに気付きました。
論文 参考訳(メタデータ) (2025-02-18T19:33:14Z) - LLM Cyber Evaluations Don't Capture Real-World Risk [0.0]
大規模言語モデル(LLMs)は、サイバーセキュリティアプリケーションにおける進歩を誇示している。
これらの能力によって引き起こされるリスクを評価するための現在の取り組みは、現実のインパクトを理解するという目標と不一致である、と我々は主張する。
論文 参考訳(メタデータ) (2025-01-31T05:33:48Z) - ChatNVD: Advancing Cybersecurity Vulnerability Assessment with Large Language Models [0.46873264197900916]
本稿では,Large Language Models (LLMs) のソフトウェア脆弱性評価への応用について検討する。
我々は,OpenAIによるGPT-4o mini,MetaによるLlama 3,GoogleによるGemini 1.5 Proの3つの著名なLCMを利用して,ChatNVDの3つの変種を開発した。
それらの有効性を評価するために,一般的なセキュリティ脆弱性質問を含む包括的アンケートを用いて,これらのモデルの比較分析を行った。
論文 参考訳(メタデータ) (2024-12-06T03:45:49Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - CyberPal.AI: Empowering LLMs with Expert-Driven Cybersecurity Instructions [0.2999888908665658]
大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)機能を持ち、様々なアプリケーションにまたがる汎用機能を提供する。
しかし、サイバーセキュリティのような複雑なドメイン固有のタスクへの応用は、しばしば重大な課題に直面している。
本研究では,SecKnowledgeとCyberPal.AIを紹介し,これらの課題に対処し,セキュリティ専門家のLSMを訓練する。
論文 参考訳(メタデータ) (2024-08-17T22:37:39Z) - Risks and NLP Design: A Case Study on Procedural Document QA [52.557503571760215]
より具体的なアプリケーションやユーザに対して分析を専門化すれば,ユーザに対するリスクや害の明確な評価が可能になる,と我々は主張する。
リスク指向のエラー分析を行い、リスクの低減とパフォーマンスの向上を図り、将来のシステムの設計を通知する。
論文 参考訳(メタデータ) (2024-08-16T17:23:43Z) - Threat Modelling and Risk Analysis for Large Language Model (LLM)-Powered Applications [0.0]
大規模言語モデル(LLM)は、高度な自然言語処理機能を提供することによって、様々なアプリケーションに革命をもたらした。
本稿では,LSMを利用したアプリケーションに適した脅威モデリングとリスク分析について検討する。
論文 参考訳(メタデータ) (2024-06-16T16:43:58Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Mapping LLM Security Landscapes: A Comprehensive Stakeholder Risk Assessment Proposal [0.0]
本稿では,従来のシステムにおけるリスク評価手法のようなツールを用いたリスク評価プロセスを提案する。
我々は、潜在的な脅威要因を特定し、脆弱性要因に対して依存するシステムコンポーネントをマッピングするためのシナリオ分析を行う。
3つの主要株主グループに対する脅威もマップ化しています。
論文 参考訳(メタデータ) (2024-03-20T05:17:22Z) - The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning [87.1610740406279]
ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。
現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。
Weapons of Mass Destruction Proxyベンチマークを公開しています。
論文 参考訳(メタデータ) (2024-03-05T18:59:35Z) - Mind the Gap: Securely modeling cyber risk based on security deviations
from a peer group [2.7910505923792646]
本稿では,特定の経済セクターにおいて,ピアに対するサイバー姿勢とサイバーリスクを推定する新たな枠組みを提案する。
我々は、組織とその仲間間の重み付けされたセキュリティギャップを表す、Defense Gap Indexと呼ばれる新しいトップライン変数を導入する。
このアプローチを,25の大企業から収集したデータを用いて,特定の分野に適用する。
論文 参考訳(メタデータ) (2024-02-06T17:22:45Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - A Security Risk Taxonomy for Prompt-Based Interaction With Large Language Models [5.077431021127288]
本稿では,大規模言語モデル(LLM)によるセキュリティリスクに着目し,現在の研究のギャップに対処する。
我々の研究は,ユーザモデル通信パイプラインに沿ったセキュリティリスクの分類を提案し,一般的に使用されている機密性,完全性,可用性(CIA)3つのトライアドと並行して,ターゲットタイプと攻撃タイプによる攻撃を分類する。
論文 参考訳(メタデータ) (2023-11-19T20:22:05Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。