論文の概要: Here Comes The AI Worm: Unleashing Zero-click Worms that Target GenAI-Powered Applications
- arxiv url: http://arxiv.org/abs/2403.02817v1
- Date: Tue, 5 Mar 2024 09:37:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-17 17:01:02.773638
- Title: Here Comes The AI Worm: Unleashing Zero-click Worms that Target GenAI-Powered Applications
- Title(参考訳): AIワームが登場:GenAIベースのアプリケーションをターゲットにしたゼロクリックワームを公開
- Authors: Stav Cohen, Ron Bitton, Ben Nassi,
- Abstract要約: Morris IIは、敵対的な自己複製プロンプトを用いて、GenAIエコシステムをターゲットにした最初のワームである。
我々は、GenAIを利用した電子メールアシスタントに対するMoris IIの適用を2つのユースケースで実証した。
- 参考スコア(独自算出の注目度): 6.904930679944526
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the past year, numerous companies have incorporated Generative AI (GenAI) capabilities into new and existing applications, forming interconnected Generative AI (GenAI) ecosystems consisting of semi/fully autonomous agents powered by GenAI services. While ongoing research highlighted risks associated with the GenAI layer of agents (e.g., dialog poisoning, membership inference, prompt leaking, jailbreaking), a critical question emerges: Can attackers develop malware to exploit the GenAI component of an agent and launch cyber-attacks on the entire GenAI ecosystem? This paper introduces Morris II, the first worm designed to target GenAI ecosystems through the use of adversarial self-replicating prompts. The study demonstrates that attackers can insert such prompts into inputs that, when processed by GenAI models, prompt the model to replicate the input as output (replication), engaging in malicious activities (payload). Additionally, these inputs compel the agent to deliver them (propagate) to new agents by exploiting the connectivity within the GenAI ecosystem. We demonstrate the application of Morris II against GenAIpowered email assistants in two use cases (spamming and exfiltrating personal data), under two settings (black-box and white-box accesses), using two types of input data (text and images). The worm is tested against three different GenAI models (Gemini Pro, ChatGPT 4.0, and LLaVA), and various factors (e.g., propagation rate, replication, malicious activity) influencing the performance of the worm are evaluated.
- Abstract(参考訳): この1年間で、多くの企業がGenerative AI(GenAI)機能を新規および既存のアプリケーションに組み入れ、GenAIサービスを利用した半完全自律エージェントで構成される相互接続されたGenerative AI(GenAI)エコシステムを形成した。
進行中の調査では、GenAIエージェントのレイヤに関連するリスク(ダイアログ中毒、会員推測、即時リーク、脱獄など)が強調されているが、重要な疑問が浮かび上がっている。
本稿では、敵対的な自己複製プロンプトを用いて、GenAIエコシステムをターゲットにした最初のワームであるモリスIIを紹介する。
この研究は、攻撃者がそのようなプロンプトを入力に挿入できることを示し、GenAIモデルによって処理されると、モデルに入力を出力(複製)として複製させ、悪意のある活動(ペイロード)を行うように促す。
さらに、これらの入力は、GenAIエコシステム内の接続性を活用することにより、エージェントに新たなエージェントへの(プロパゲート)配信を強制する。
我々は、2種類の入力データ(テキストと画像)を用いて、2種類の設定(ブラックボックスとホワイトボックスアクセス)で、GenAIを利用した電子メールアシスタントに対するモリスIIの適用を実証した。
このワームは、Gemini Pro、ChatGPT 4.0、LLaVAの3つの異なるGenAIモデルに対して試験され、ワームの性能に影響を与える様々な要因(例えば、伝播速度、複製、悪意のある活動)が評価される。
関連論文リスト
- Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking [6.904930679944526]
我々は、GenAIモデルをジェイルブレイクする能力により、攻撃者はRAGベースのアプリケーションに対する攻撃の結果をエスカレートできることを示した。
論文の前半では、攻撃者がRAG文書抽出攻撃に対してRAGメンバシップ推論攻撃をエスカレートできることが示されている。
論文の第2部では、攻撃者がRAGデータ中毒攻撃の規模を拡大し、単一のアプリケーションに妥協することで、GenAIエコシステム全体を妥協できることを示す。
論文 参考訳(メタデータ) (2024-09-12T13:50:22Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - NoiSec: Harnessing Noise for Security against Adversarial and Backdoor Attacks [24.583175914095783]
機械学習に対する悪意のあるデータ操作攻撃は、安全クリティカルなアプリケーションにおける信頼性を損なう。
NoiSecは、リコンストラクションベースの検出器で、テスト入力からノイズを取り除き、基礎となる特徴をノイズから抽出し、それらを利用して、系統的な悪意のある操作を認識する。
NoiSecは高い検出性能を維持し、偽陽性率を1%に抑える。
論文 参考訳(メタデータ) (2024-06-18T21:44:51Z) - Efficient Trigger Word Insertion [9.257916713112945]
我々の主な目的は、テキストバックドア攻撃において、良好なアタック成功率(ASR)を達成しつつ、有毒なサンプルの数を減らすことである。
トリガー語最適化と有毒なサンプル選択の観点から,効率的なトリガー語挿入戦略を提案する。
提案手法は, 汚れラベル設定で有毒な試料が10個あれば90%以上を達成でき, クリーンラベル設定ではトレーニングデータの1.5%しか必要としない。
論文 参考訳(メタデータ) (2023-11-23T12:15:56Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - Improved Activation Clipping for Universal Backdoor Mitigation and
Test-Time Detection [27.62279831135902]
ディープニューラルネットワークは、攻撃者がバックドアトリガーでトレーニングセットに毒を盛るトロイア攻撃に対して脆弱である。
近年の研究では、バックドア中毒は攻撃されたモデルにおいて過剰な適合(通常、大きな活性化)を引き起こすことが示されている。
我々は、分類マージンを明示的に制限するためにアクティベーション境界を選択する新しいアプローチを考案する。
論文 参考訳(メタデータ) (2023-08-08T22:47:39Z) - IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks [45.81957796169348]
バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。
IMBERTは、被害者モデルから得られた勾配または自己注意スコアを用いて、バックドア攻撃に対する自己防衛を行う。
我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。
論文 参考訳(メタデータ) (2023-05-25T22:08:57Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - Combating Adversaries with Anti-Adversaries [118.70141983415445]
特に、我々の層は、逆の層とは反対の方向に入力摂動を生成します。
我々は,我々の階層と名目および頑健に訓練されたモデルを組み合わせることで,我々のアプローチの有効性を検証する。
我々の対向層は、クリーンな精度でコストを伴わずにモデルロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2021-03-26T09:36:59Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。