論文の概要: AdvWeb: Controllable Black-box Attacks on VLM-powered Web Agents
- arxiv url: http://arxiv.org/abs/2410.17401v2
- Date: Tue, 29 Oct 2024 23:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:23:42.970524
- Title: AdvWeb: Controllable Black-box Attacks on VLM-powered Web Agents
- Title(参考訳): AdvWeb: VLMによるWebエージェントに対するコントロール可能なブラックボックス攻撃
- Authors: Chejian Xu, Mintong Kang, Jiawei Zhang, Zeyi Liao, Lingbo Mo, Mengqi Yuan, Huan Sun, Bo Li,
- Abstract要約: AdvWebは、Webエージェント向けに設計された新しいブラックボックス攻撃フレームワークである。
DPOを用いた逆プロンプトモデルの訓練と最適化を行う。
従来のアプローチとは異なり、我々の逆文字列注入はステルスと制御を維持している。
- 参考スコア(独自算出の注目度): 22.682464365220916
- License:
- Abstract: Vision Language Models (VLMs) have revolutionized the creation of generalist web agents, empowering them to autonomously complete diverse tasks on real-world websites, thereby boosting human efficiency and productivity. However, despite their remarkable capabilities, the safety and security of these agents against malicious attacks remain critically underexplored, raising significant concerns about their safe deployment. To uncover and exploit such vulnerabilities in web agents, we provide AdvWeb, a novel black-box attack framework designed against web agents. AdvWeb trains an adversarial prompter model that generates and injects adversarial prompts into web pages, misleading web agents into executing targeted adversarial actions such as inappropriate stock purchases or incorrect bank transactions, actions that could lead to severe real-world consequences. With only black-box access to the web agent, we train and optimize the adversarial prompter model using DPO, leveraging both successful and failed attack strings against the target agent. Unlike prior approaches, our adversarial string injection maintains stealth and control: (1) the appearance of the website remains unchanged before and after the attack, making it nearly impossible for users to detect tampering, and (2) attackers can modify specific substrings within the generated adversarial string to seamlessly change the attack objective (e.g., purchasing stocks from a different company), enhancing attack flexibility and efficiency. We conduct extensive evaluations, demonstrating that AdvWeb achieves high success rates in attacking SOTA GPT-4V-based VLM agent across various web tasks. Our findings expose critical vulnerabilities in current LLM/VLM-based agents, emphasizing the urgent need for developing more reliable web agents and effective defenses. Our code and data are available at https://ai-secure.github.io/AdvWeb/ .
- Abstract(参考訳): ビジョン言語モデル(VLM)は、ジェネラリストWebエージェントの作成に革命をもたらし、現実世界のウェブサイト上で様々なタスクを自律的に完了させ、人間の効率と生産性を高める。
しかし、その顕著な能力にもかかわらず、悪意のある攻撃に対するこれらのエージェントの安全性とセキュリティはいまだに過小評価されており、彼らの安全な配備に関する重大な懸念を提起している。
Webエージェントのこのような脆弱性を発見して悪用するために、Webエージェントに対して設計された新しいブラックボックス攻撃フレームワークであるAdvWebを提供する。
AdvWebは、Webページに敵のプロンプトを生成し、注入する敵のプロンプトモデルを訓練し、不適切な株式購入や不正な銀行取引といったターゲットの敵のアクションの実行にWebエージェントを誤解させる。
Webエージェントへのブラックボックスアクセスのみを使用して、ターゲットエージェントに対する攻撃文字列と失敗文字列の両方を活用することで、DPOを用いて敵プロンプトモデルをトレーニングし、最適化する。
従来とは違って,攻撃の前後でウェブサイトの外観が変わらず,ユーザの触覚検出がほぼ不可能になり,攻撃者が生成した相手文字列内の特定のサブストリングを変更でき,攻撃目標(例えば,別の企業から在庫を購入するなど)をシームレスに変更でき,攻撃の柔軟性と効率が向上する。
本稿では,様々な Web タスクを対象とした SOTA GPT-4V ベースの VLM エージェントの攻撃において,AdvWeb が高い成功率を達成することを示す。
以上の結果から,現在のLLM/VLM系エージェントの重大な脆弱性が指摘され,より信頼性の高いWebエージェントの開発や効果的な防御の必要性が強調された。
私たちのコードとデータはhttps://ai-secure.github.io/AdvWeb/で公開されています。
関連論文リスト
- Attacking Vision-Language Computer Agents via Pop-ups [61.744008541021124]
VLMエージェントは、慎重に設計された対向的なポップアップによって容易に攻撃できることを示す。
この混乱は、エージェントが通常のタスクを実行する代わりにポップアップをクリックさせる。
論文 参考訳(メタデータ) (2024-11-04T18:56:42Z) - The Best Defense is a Good Offense: Countering LLM-Powered Cyberattacks [2.6528263069045126]
大規模言語モデル(LLM)は、間もなく自律的なサイバーエージェントにとって不可欠なものになるだろう。
我々は,LLM攻撃の脆弱性を生かした新たな防衛戦略を導入する。
以上の結果から, LLM脆弱性を防御戦略に変換する効果を実証し, 防衛成功率を最大90%とした。
論文 参考訳(メタデータ) (2024-10-20T14:07:24Z) - EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage [40.82238259404402]
敵環境におけるジェネラリストWebエージェントのプライバシーリスクに関する最初の研究を行う。
まず,Webサイト上での攻撃に対する現実的な脅威モデルを提示し,ユーザ固有のPIIを盗むか,あるいはユーザ要求全体に対して,敵対的な2つのターゲットを検討する。
我々は、Mind2Webから様々なPIIカテゴリを含む177のアクションステップを収集し、これまでで最も有能なジェネラリストWebエージェントフレームワークの1つを使用して実験を行う。
論文 参考訳(メタデータ) (2024-09-17T15:49:44Z) - Mitigating Label Flipping Attacks in Malicious URL Detectors Using
Ensemble Trees [16.16333915007336]
悪意のあるURLは、交通、医療、エネルギー、銀行など、様々な産業で敵対的な機会を提供する。
バックドア攻撃は、ラベルフリップ(LF)など、少数のトレーニングデータラベルを操作することで、良質なラベルを悪意のあるラベルに変更し、その逆を処理します。
本稿では,有毒なラベルの存在を検知するアラームシステムと,オリジナルクラスラベルの発見を目的とした防御機構を提案する。
論文 参考訳(メタデータ) (2024-03-05T14:21:57Z) - WIPI: A New Web Threat for LLM-Driven Web Agents [28.651763099760664]
我々は、Web Agentを間接的に制御し、公開されているWebページに埋め込まれた悪意ある命令を実行する、新しい脅威WIPIを導入する。
WIPIを成功させるためには、ブラックボックス環境で動作させる。
提案手法は,純ブラックボックスシナリオにおいても平均攻撃成功率(ASR)が90%を超えることを達成している。
論文 参考訳(メタデータ) (2024-02-26T19:01:54Z) - SENet: Visual Detection of Online Social Engineering Attack Campaigns [3.858859576352153]
ソーシャルエンジニアリング(SE)は、ユーザのセキュリティとプライバシを侵害する可能性のあるアクションの実行をユーザを欺くことを目的としている。
SEShieldは、ブラウザ内でソーシャルエンジニアリング攻撃を検出するためのフレームワークである。
論文 参考訳(メタデータ) (2024-01-10T22:25:44Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。