論文の概要: EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage
- arxiv url: http://arxiv.org/abs/2409.11295v2
- Date: Fri, 4 Oct 2024 02:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 20:13:03.713118
- Title: EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage
- Title(参考訳): EIA: プライバシ漏洩のためのジェネリストWebエージェントに対する環境注入攻撃
- Authors: Zeyi Liao, Lingbo Mo, Chejian Xu, Mintong Kang, Jiawei Zhang, Chaowei Xiao, Yuan Tian, Bo Li, Huan Sun,
- Abstract要約: 敵環境におけるジェネラリストWebエージェントのプライバシーリスクに関する最初の研究を行う。
まず,Webサイト上での攻撃に対する現実的な脅威モデルを提示し,ユーザ固有のPIIを盗むか,あるいはユーザ要求全体に対して,敵対的な2つのターゲットを検討する。
我々は、Mind2Webから様々なPIIカテゴリを含む177のアクションステップを収集し、これまでで最も有能なジェネラリストWebエージェントフレームワークの1つを使用して実験を行う。
- 参考スコア(独自算出の注目度): 40.82238259404402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalist web agents have demonstrated remarkable potential in autonomously completing a wide range of tasks on real websites, significantly boosting human productivity. However, web tasks, such as booking flights, usually involve users' PII, which may be exposed to potential privacy risks if web agents accidentally interact with compromised websites, a scenario that remains largely unexplored in the literature. In this work, we narrow this gap by conducting the first study on the privacy risks of generalist web agents in adversarial environments. First, we present a realistic threat model for attacks on the website, where we consider two adversarial targets: stealing users' specific PII or the entire user request. Then, we propose a novel attack method, termed Environmental Injection Attack (EIA). EIA injects malicious content designed to adapt well to environments where the agents operate and our work instantiates EIA specifically for privacy scenarios in web environments. We collect 177 action steps that involve diverse PII categories on realistic websites from the Mind2Web, and conduct experiments using one of the most capable generalist web agent frameworks to date. The results demonstrate that EIA achieves up to 70% ASR in stealing specific PII and 16% ASR for full user request. Additionally, by accessing the stealthiness and experimenting with a defensive system prompt, we indicate that EIA is hard to detect and mitigate. Notably, attacks that are not well adapted for a webpage can be detected via human inspection, leading to our discussion about the trade-off between security and autonomy. However, extra attackers' efforts can make EIA seamlessly adapted, rendering such supervision ineffective. Thus, we further discuss the defenses at the pre- and post-deployment stages of the websites without relying on human supervision and call for more advanced defense strategies.
- Abstract(参考訳): ジェネラリストのウェブエージェントは、実際のウェブサイトで広範囲のタスクを自律的に完了させ、人間の生産性を著しく向上させる驚くべき可能性を示してきた。
しかし、フライトの予約のようなウェブタスクは、通常ユーザーのPIIを介し、Webエージェントが誤って侵害されたウェブサイトと対話した場合、潜在的にプライバシー上のリスクにさらされる可能性がある。
本研究では,敵環境におけるジェネラリストWebエージェントのプライバシーリスクに関する最初の研究を行うことにより,このギャップを狭める。
まず,Webサイト上での攻撃に対する現実的な脅威モデルを提示し,ユーザ固有のPIIを盗むか,あるいはユーザ要求全体に対して,敵対的な2つのターゲットを検討する。
次に,環境注入攻撃(EIA)と呼ばれる新しい攻撃手法を提案する。
EIAは、エージェントが操作する環境に順応するように設計された悪意のあるコンテンツを注入し、我々の作業は、Web環境のプライバシーシナリオに特化してEIAをインスタンス化する。
我々は、Mind2Webから様々なPIIカテゴリを含む177のアクションステップを収集し、これまでで最も有能なジェネラリストWebエージェントフレームワークの1つを使用して実験を行う。
その結果、EIAは特定のPIIを盗む際に最大70%のASRを達成し、16%のASRを全ユーザ要求で達成した。
さらに、ステルスネスにアクセスして防衛システムプロンプトを試すことにより、EIAは検出および緩和が困難であることを示す。
特に、Webページに適さない攻撃は、人間の検査によって検出できるため、セキュリティと自律性の間のトレードオフに関する議論につながります。
しかし、追加の攻撃者の努力はEIAをシームレスに適応させ、そのような監督を効果的にしない。
そこで我々は,人事監督に頼らず,より先進的な防衛戦略を求めることなく,Webサイトの前・後段階での防衛についてさらに議論する。
関連論文リスト
- Auto-Intent: Automated Intent Discovery and Self-Exploration for Large Language Model Web Agents [68.22496852535937]
本稿では,事前訓練された大規模言語モデル(LLM)を,直接微調整なしで対象ドメインのエージェントとして適用する手法であるAuto-Intentを紹介する。
提案手法はまず,対象領域の実証から意図を教師なしで発見する。
我々は、エージェントの過去の観察と行動から次の意図を予測するために、意図予測器を訓練する。
論文 参考訳(メタデータ) (2024-10-29T21:37:04Z) - Countering Autonomous Cyber Threats [40.00865970939829]
ファンデーションモデルは、サイバードメイン内で広く、特に二元的関心事を提示します。
近年の研究では、これらの先進的なモデルが攻撃的なサイバースペース操作を通知または独立に実行する可能性を示している。
この研究は、孤立したネットワークでマシンを妥協する能力について、最先端のいくつかのFMを評価し、そのようなAIによる攻撃を倒す防御メカニズムを調査する。
論文 参考訳(メタデータ) (2024-10-23T22:46:44Z) - AdvWeb: Controllable Black-box Attacks on VLM-powered Web Agents [22.682464365220916]
AdvWebは、Webエージェント向けに設計された新しいブラックボックス攻撃フレームワークである。
DPOを用いた逆プロンプトモデルの訓練と最適化を行う。
従来のアプローチとは異なり、我々の逆文字列注入はステルスと制御を維持している。
論文 参考訳(メタデータ) (2024-10-22T20:18:26Z) - Offensive AI: Enhancing Directory Brute-forcing Attack with the Use of Language Models [16.89878267176532]
Offensive AIは、AIベースの技術をサイバー攻撃に統合するパラダイムである。
そこで本研究では,AIがディレクトリ列挙プロセスを強化し,新しい言語モデルベースのフレームワークを提案する。
実験は、異なるWebアプリケーションドメインから100万のURLからなるテストベッドで実施され、平均パフォーマンスが969%向上したLMベースの攻撃の優位性を実証した。
論文 参考訳(メタデータ) (2024-04-22T12:40:38Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Towards Practical Deployment-Stage Backdoor Attack on Deep Neural
Networks [5.231607386266116]
ディープラーニングモデルに対するデプロイステージバックドア攻撃の現実的な脅威について検討する。
バックドアインジェクションのための最初のグレーボックスと物理的に実現可能な重み攻撃アルゴリズムを提案する。
本研究は,攻撃アルゴリズムの有効性と実用性を示すものである。
論文 参考訳(メタデータ) (2021-11-25T08:25:27Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Automating Privilege Escalation with Deep Reinforcement Learning [71.87228372303453]
本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。
本稿では,最先端の強化学習アルゴリズムを用いて,局所的な特権エスカレーションを行うエージェントを提案する。
我々のエージェントは、実際の攻撃センサーデータを生成し、侵入検知システムの訓練と評価に利用できる。
論文 参考訳(メタデータ) (2021-10-04T12:20:46Z) - Evaluating Attacker Risk Behavior in an Internet of Things Ecosystem [2.958532752589616]
サイバーセキュリティでは、攻撃者は真面目で、無知なスクリプト・キッズからステルス、忍耐強い脅威まで様々だ。
本研究は、攻撃者のリスク探索やリスク回避が、検出最適化ディフェンダーに対する操作にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2021-09-23T18:53:41Z) - Measurement-driven Security Analysis of Imperceptible Impersonation
Attacks [54.727945432381716]
本稿では,ディープニューラルネットワークを用いた顔認識システムの実用性について検討する。
皮膚の色,性別,年齢などの要因が,特定の標的に対する攻撃を行う能力に影響を及ぼすことを示す。
また,攻撃者の顔のさまざまなポーズや視点に対して堅牢なユニバーサルアタックを構築する可能性についても検討した。
論文 参考訳(メタデータ) (2020-08-26T19:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。