論文の概要: CYBERSECEVAL 3: Advancing the Evaluation of Cybersecurity Risks and Capabilities in Large Language Models
- arxiv url: http://arxiv.org/abs/2408.01605v1
- Date: Fri, 2 Aug 2024 23:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 19:20:31.925301
- Title: CYBERSECEVAL 3: Advancing the Evaluation of Cybersecurity Risks and Capabilities in Large Language Models
- Title(参考訳): CYBERSECEVAL 3:大規模言語モデルにおけるサイバーセキュリティリスクと能力の評価の改善
- Authors: Shengye Wan, Cyrus Nikolaidis, Daniel Song, David Molnar, James Crnkovich, Jayson Grace, Manish Bhatt, Sahana Chennabasappa, Spencer Whitman, Stephanie Ding, Vlad Ionescu, Yue Li, Joshua Saxe,
- Abstract要約: CYBERSECEVAL 3は、サードパーティに対するリスクと、アプリケーション開発者とエンドユーザに対するリスクという、2つの幅広いカテゴリの8つの異なるリスクを評価します。
これまでの研究と比較して、攻撃的セキュリティ機能に焦点を当てた新たな分野として、ソーシャルエンジニアリングの自動化、手動攻撃型サイバーオペレーションのスケーリング、自動攻撃型サイバーオペレーションがあります。
- 参考スコア(独自算出の注目度): 2.2779399250291577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We are releasing a new suite of security benchmarks for LLMs, CYBERSECEVAL 3, to continue the conversation on empirically measuring LLM cybersecurity risks and capabilities. CYBERSECEVAL 3 assesses 8 different risks across two broad categories: risk to third parties, and risk to application developers and end users. Compared to previous work, we add new areas focused on offensive security capabilities: automated social engineering, scaling manual offensive cyber operations, and autonomous offensive cyber operations. In this paper we discuss applying these benchmarks to the Llama 3 models and a suite of contemporaneous state-of-the-art LLMs, enabling us to contextualize risks both with and without mitigations in place.
- Abstract(参考訳): LLMのための新しいセキュリティベンチマークであるCYBERSECEVAL 3をリリースし、LLMのサイバーセキュリティのリスクと能力を実証的に測定する議論を継続する。
CYBERSECEVAL 3は、サードパーティに対するリスクと、アプリケーション開発者とエンドユーザに対するリスクという、2つの幅広いカテゴリの8つの異なるリスクを評価します。
これまでの研究と比較して、攻撃的セキュリティ機能に焦点を当てた新たな分野として、ソーシャルエンジニアリングの自動化、手動攻撃型サイバーオペレーションのスケーリング、自動攻撃型サイバーオペレーションがあります。
本稿では,これらのベンチマークをLlama 3モデルと同時期LLMのスイートに適用し,リスクを軽減・回避できる可能性について論じる。
関連論文リスト
- Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Threat Modelling and Risk Analysis for Large Language Model (LLM)-Powered Applications [0.0]
大規模言語モデル(LLM)は、高度な自然言語処理機能を提供することによって、様々なアプリケーションに革命をもたらした。
本稿では,LSMを利用したアプリケーションに適した脅威モデリングとリスク分析について検討する。
論文 参考訳(メタデータ) (2024-06-16T16:43:58Z) - SECURE: Benchmarking Generative Large Language Models for Cybersecurity Advisory [0.5804487044220691]
大規模言語モデル(LLM)はサイバーセキュリティの応用の可能性を示しているが、幻覚や真実性の欠如といった問題により信頼性が低下している。
本研究は、これらのタスクに関する7つの最先端モデルを評価し、サイバーセキュリティの文脈におけるその強みと弱点に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-05-30T19:35:06Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Mapping LLM Security Landscapes: A Comprehensive Stakeholder Risk Assessment Proposal [0.0]
本稿では,従来のシステムにおけるリスク評価手法のようなツールを用いたリスク評価プロセスを提案する。
我々は、潜在的な脅威要因を特定し、脆弱性要因に対して依存するシステムコンポーネントをマッピングするためのシナリオ分析を行う。
3つの主要株主グループに対する脅威もマップ化しています。
論文 参考訳(メタデータ) (2024-03-20T05:17:22Z) - The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning [87.1610740406279]
ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。
現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。
Weapons of Mass Destruction Proxyベンチマークを公開しています。
論文 参考訳(メタデータ) (2024-03-05T18:59:35Z) - Mind the Gap: Securely modeling cyber risk based on security deviations
from a peer group [2.7910505923792646]
本稿では,特定の経済セクターにおいて,ピアに対するサイバー姿勢とサイバーリスクを推定する新たな枠組みを提案する。
我々は、組織とその仲間間の重み付けされたセキュリティギャップを表す、Defense Gap Indexと呼ばれる新しいトップライン変数を導入する。
このアプローチを,25の大企業から収集したデータを用いて,特定の分野に適用する。
論文 参考訳(メタデータ) (2024-02-06T17:22:45Z) - A Security Risk Taxonomy for Large Language Models [5.120567378386615]
本稿では,大規模言語モデルによるセキュリティリスクに着目し,現在の研究のギャップに対処する。
本研究は,ユーザモデル通信パイプラインに沿ったセキュリティリスクの分類法を提案する。
ターゲットと攻撃タイプによる攻撃を、プロンプトベースのインタラクションスキームに分類する。
論文 参考訳(メタデータ) (2023-11-19T20:22:05Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z) - Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard
Security Attacks [67.86285142381644]
命令追従型大規模言語モデルの最近の進歩は、悪意のある目的のために二重使用リスクを増幅する。
命令追従機能がコンピュータセキュリティの標準的な攻撃を可能にするため、デュアルユースを防ぐのは難しい。
本研究では,LLMがヘイトスピーチや詐欺などの悪意のあるコンテンツをターゲットにすることができることを示す。
論文 参考訳(メタデータ) (2023-02-11T15:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。