Fugu-MT 論文翻訳(概要): Catastrophic Cyber Capabilities Benchmark (3CB): Robustly Evaluating LLM Agent Cyber Offense Capabilities

論文の概要: Catastrophic Cyber Capabilities Benchmark (3CB): Robustly Evaluating LLM Agent Cyber Offense Capabilities

arxiv url: http://arxiv.org/abs/2410.09114v1
Date: Thu, 10 Oct 2024 12:06:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 16:38:28.629610
Title: Catastrophic Cyber Capabilities Benchmark (3CB): Robustly Evaluating LLM Agent Cyber Offense Capabilities
Title（参考訳）: 破滅的サイバー能力ベンチマーク(CB) : LLMエージェントサイバー攻撃能力のロバスト評価
Authors: Andrey Anurin, Jonathan Ng, Kibo Schaffer, Ziyue Wang, Jason Schreiber, Esben Kran,
Abstract要約: LLMエージェントの実際の攻撃能力を厳格に評価するフレームワークであるCatastrophic Cyber Capabilities Benchmark (3CB)を紹介する。 GPT-4o や Claude 3.5 Sonnet のようなフロンティアモデルでは,偵察や悪用といった攻撃的なタスクを実行できる。我々のソフトウェアソリューションとそれに対応するベンチマークは、サイバー犯罪評価の迅速な改善能力と堅牢性の間のギャップを減らすための重要なツールを提供する。
参考スコア（独自算出の注目度）: 3.299854548312664
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: LLM agents have the potential to revolutionize defensive cyber operations, but their offensive capabilities are not yet fully understood. To prepare for emerging threats, model developers and governments are evaluating the cyber capabilities of foundation models. However, these assessments often lack transparency and a comprehensive focus on offensive capabilities. In response, we introduce the Catastrophic Cyber Capabilities Benchmark (3CB), a novel framework designed to rigorously assess the real-world offensive capabilities of LLM agents. Our evaluation of modern LLMs on 3CB reveals that frontier models, such as GPT-4o and Claude 3.5 Sonnet, can perform offensive tasks such as reconnaissance and exploitation across domains ranging from binary analysis to web technologies. Conversely, smaller open-source models exhibit limited offensive capabilities. Our software solution and the corresponding benchmark provides a critical tool to reduce the gap between rapidly improving capabilities and robustness of cyber offense evaluations, aiding in the safer deployment and regulation of these powerful technologies.
Abstract（参考訳）: LLMエージェントは防衛サイバー作戦に革命を起こす可能性があるが、その攻撃能力はまだ完全には理解されていない。新たな脅威に備えて、モデル開発者と政府は基礎モデルのサイバー能力を評価している。しかしながら、これらの評価には透明性が欠如し、攻撃的能力に包括的な焦点が当てられていることが多い。そこで我々は,LLMエージェントの現実的攻撃能力を厳格に評価する新しいフレームワークであるCatastrophic Cyber Capabilities Benchmark (3CB)を紹介した。 GPT-4o や Claude 3.5 Sonnet のようなフロンティアモデルでは,バイナリ解析から Web 技術まで,ドメイン間の偵察や利用といった攻撃的な処理が可能であることが,3CB 上での最近の LLM の評価から明らかとなった。逆に、小さなオープンソースモデルは攻撃能力に制限がある。我々のソフトウェアソリューションとそれに対応するベンチマークは、サイバー攻撃評価の迅速な改善能力と堅牢性の間のギャップを減らし、これらの強力な技術のより安全な展開と規制を支援する重要なツールを提供する。

関連論文リスト

CyberGym: Evaluating AI Agents' Cybersecurity Capabilities with Real-World Vulnerabilities at Scale [46.76144797837242]
大規模言語モデル(LLM)エージェントは、自律的なサイバーセキュリティタスクの処理において、ますます熟練している。既存のベンチマークは不足していて、現実のシナリオをキャプチャできなかったり、スコープが限られていたりします。我々はCyberGymを紹介した。CyberGymは1,507の現実世界の脆弱性を特徴とする大規模かつ高品質なサイバーセキュリティ評価フレームワークである。
論文参考訳（メタデータ） (2025-06-03T07:35:14Z)
Capability-Based Scaling Laws for LLM Red-Teaming [71.89259138609965]
従来のプロンプト・エンジニアリングのアプローチは、レッド・チーム化が弱々しく強い問題となると、効果が低下する可能性がある。我々は,LLMをベースとしたアタッカー・ターゲットペア500以上を,人間のレッドチームの模倣したジェイルブレイク攻撃を用いて評価した。我々は、攻撃目標能力のギャップに基づいて、固定目標に対する攻撃成功を予測するジェイルブレイクスケーリング法を導出する。
論文参考訳（メタデータ） (2025-05-26T16:05:41Z)
Llama-3.1-FoundationAI-SecurityLLM-Base-8B Technical Report [50.268821168513654]
我々は,Llama 3.1アーキテクチャ上に構築された,サイバーセキュリティにフォーカスした大規模言語モデル(LLM)であるFoundation-Sec-8Bを紹介する。我々は、Llama 3.1-70B と GPT-4o-mini がサイバーセキュリティ固有のタスクで一致していることを示し、確立された新しいサイバーセキュリティベンチマークと新しいサイバーセキュリティベンチマークの両方で評価した。当社のモデルを一般公開することで、公開とプライベート両方のサイバーセキュリティ状況において、AI駆動ツールの進歩と採用を加速することを目指しています。
論文参考訳（メタデータ） (2025-04-28T08:41:12Z)
T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文参考訳（メタデータ） (2025-04-22T01:18:42Z)
OCCULT: Evaluating Large Language Models for Offensive Cyber Operation Capabilities [0.0]
我々は、実世界の攻撃的サイバー操作の実現とスケーリングに向けたAIの進歩を評価するための新しいアプローチを実証する。我々は、サイバーセキュリティの専門家が厳格かつ反復可能な測定に貢献できる軽量な運用評価フレームワークであるOCCULTについて詳述する。私たちは、現実的なサイバー脅威をスケールするためにAIが使用されるリスクが、最近著しく進歩していることに気付きました。
論文参考訳（メタデータ） (2025-02-18T19:33:14Z)
ChatNVD: Advancing Cybersecurity Vulnerability Assessment with Large Language Models [0.46873264197900916]
本稿では,Large Language Models (LLMs) のソフトウェア脆弱性評価への応用について検討する。我々は,OpenAIによるGPT-4o mini,MetaによるLlama 3,GoogleによるGemini 1.5 Proの3つの著名なLCMを利用して,ChatNVDの3つの変種を開発した。それらの有効性を評価するために,一般的なセキュリティ脆弱性質問を含む包括的アンケートを用いて,これらのモデルの比較分析を行った。
論文参考訳（メタデータ） (2024-12-06T03:45:49Z)
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [97.82118821263825]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。 ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文参考訳（メタデータ） (2024-11-25T04:17:24Z)
Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [70.93622520400385]
本稿では,VLAに基づくロボットシステムのロバスト性を体系的に評価する。本研究では,ロボット行動の不安定化に空間的基盤を活用する,標的のない位置認識型攻撃目標を提案する。また、カメラの視野内に小さなカラフルなパッチを配置し、デジタル環境と物理環境の両方で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文参考訳（メタデータ） (2024-11-18T01:52:20Z)
Countering Autonomous Cyber Threats [40.00865970939829]
ファンデーションモデルは、サイバードメイン内で広く、特に二元的関心事を提示します。近年の研究では、これらの先進的なモデルが攻撃的なサイバースペース操作を通知または独立に実行する可能性を示している。この研究は、孤立したネットワークでマシンを妥協する能力について、最先端のいくつかのFMを評価し、そのようなAIによる攻撃を倒す防御メカニズムを調査する。
論文参考訳（メタデータ） (2024-10-23T22:46:44Z)
The Best Defense is a Good Offense: Countering LLM-Powered Cyberattacks [2.6528263069045126]
大規模言語モデル(LLM)は、間もなく自律的なサイバーエージェントにとって不可欠なものになるだろう。我々は,LLM攻撃の脆弱性を生かした新たな防衛戦略を導入する。以上の結果から, LLM脆弱性を防御戦略に変換する効果を実証し, 防衛成功率を最大90%とした。
論文参考訳（メタデータ） (2024-10-20T14:07:24Z)
Mitigating Backdoor Threats to Large Language Models: Advancement and Challenges [46.032173498399885]
大規模言語モデル(LLM)は、Web検索、ヘルスケア、ソフトウェア開発など、さまざまな領域に大きな影響を与えている。これらのモデルがスケールするにつれて、サイバーセキュリティのリスク、特にバックドア攻撃に対する脆弱性が高まる。
論文参考訳（メタデータ） (2024-09-30T06:31:36Z)
Generative AI and Large Language Models for Cyber Security: All Insights You Need [0.06597195879147556]
本稿では,ジェネレーティブAIとLarge Language Models(LLMs)によるサイバーセキュリティの将来を概観する。ハードウェア設計のセキュリティ、侵入検知、ソフトウェアエンジニアリング、設計検証、サイバー脅威インテリジェンス、マルウェア検出、フィッシング検出など、さまざまな領域にわたるLCMアプリケーションを探索する。 GPT-4, GPT-3.5, Mixtral-8x7B, BERT, Falcon2, LLaMA などのモデルの発展に焦点を当て, LLM の進化とその現状について概説する。
論文参考訳（メタデータ） (2024-05-21T13:02:27Z)
CANAL -- Cyber Activity News Alerting Language Model: Empirical Approach vs. Expensive LLM [0.0]
本研究は、ニュース記事からサイバー関連情報を解析・分類し、サイバー脅威モデリングのための新しい経験的枠組みを提案する。このフレームワークのコアとなるのは、CANAL(Cyber Activity News Alerting Language Model)と呼ばれる細調整のBERTモデルです。我々は、GPT-4、LLaMA、Zephyrを含むより大型で高価なLCMに対してCANALをベンチマークし、サイバーニュース分類におけるゼロから少数ショットの学習を強調した。本稿では,ニュース記事から発生したサイバー信号を効率的に検出する戦略的なコンポーネントであるCyber Signal Discoveryモジュールを紹介する。
論文参考訳（メタデータ） (2024-05-10T18:57:35Z)
Crimson: Empowering Strategic Reasoning in Cybersecurity through Large Language Models [4.960466107669653]
サイバーセキュリティの領域において,大規模言語モデル(LLM)の戦略的推論能力を高めるシステムであるCrimsonを紹介する。 CVEとMITRE ATT&CK技術とを関連付けることで、クリムソンは脅威予測と戦略防衛の取り組みを進めた。
論文参考訳（メタデータ） (2024-03-01T08:43:43Z)
Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。 ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文参考訳（メタデータ） (2024-02-03T14:20:20Z)
Baseline Defenses for Adversarial Attacks Against Aligned Language Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文参考訳（メタデータ） (2023-09-01T17:59:44Z)
MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks [65.86360607693457]
敵に事前の知識がないノンボックス攻撃は、実際的な関連性にもかかわらず、比較的過小評価されている。本研究は,大規模ビジョン・ランゲージ・モデル(VLM)をノンボックス・アタックの実行のための代理モデルとして活用するための体系的な研究である。理論的および実証的な分析により,バニラCLIPを直接サロゲートモデルとして適用するための識別能力の不足に起因するno-boxアタックの実行に重要な制限があることが判明した。 MF-CLIP(MF-CLIP: MF-CLIP)はCLIPのサロゲートモデルとしての有効性を高める新しいフレームワークである。
論文参考訳（メタデータ） (2023-07-13T08:10:48Z)
Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文参考訳（メタデータ） (2021-11-23T23:42:16Z)
Federated Learning with Unreliable Clients: Performance Analysis and Mechanism Design [76.29738151117583]
Federated Learning(FL)は、分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。しかし、低品質のモデルは信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの崩壊につながる。クライアントの信頼できない振る舞いをモデル化し、このようなセキュリティリスクを軽減するための防御メカニズムを提案する。
論文参考訳（メタデータ） (2021-05-10T08:02:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。