論文の概要: EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage
- arxiv url: http://arxiv.org/abs/2409.11295v1
- Date: Tue, 17 Sep 2024 15:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 15:57:32.578616
- Title: EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage
- Title(参考訳): EIA: プライバシ漏洩のためのジェネリストWebエージェントに対する環境注入攻撃
- Authors: Zeyi Liao, Lingbo Mo, Chejian Xu, Mintong Kang, Jiawei Zhang, Chaowei Xiao, Yuan Tian, Bo Li, Huan Sun,
- Abstract要約: 本稿では,敵の標的,制約,攻撃シナリオについて議論する脅威モデルを提案する。
ユーザ固有の個人識別情報(PII)を盗むか,あるいはユーザ要求全体を盗む。
これらの目的を達成するために,環境注入攻撃(EIA)と呼ばれる新しい攻撃手法を提案する。
- 参考スコア(独自算出の注目度): 40.82238259404402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalist web agents have evolved rapidly and demonstrated remarkable potential. However, there are unprecedented safety risks associated with these them, which are nearly unexplored so far. In this work, we aim to narrow this gap by conducting the first study on the privacy risks of generalist web agents in adversarial environments. First, we present a threat model that discusses the adversarial targets, constraints, and attack scenarios. Particularly, we consider two types of adversarial targets: stealing users' specific personally identifiable information (PII) or stealing the entire user request. To achieve these objectives, we propose a novel attack method, termed Environmental Injection Attack (EIA). This attack injects malicious content designed to adapt well to different environments where the agents operate, causing them to perform unintended actions. This work instantiates EIA specifically for the privacy scenario. It inserts malicious web elements alongside persuasive instructions that mislead web agents into leaking private information, and can further leverage CSS and JavaScript features to remain stealthy. We collect 177 actions steps that involve diverse PII categories on realistic websites from the Mind2Web dataset, and conduct extensive experiments using one of the most capable generalist web agent frameworks to date, SeeAct. The results demonstrate that EIA achieves up to 70% ASR in stealing users' specific PII. Stealing full user requests is more challenging, but a relaxed version of EIA can still achieve 16% ASR. Despite these concerning results, it is important to note that the attack can still be detectable through careful human inspection, highlighting a trade-off between high autonomy and security. This leads to our detailed discussion on the efficacy of EIA under different levels of human supervision as well as implications on defenses for generalist web agents.
- Abstract(参考訳): ジェネラリストのウェブエージェントは急速に進化し、驚くべき可能性を示している。
しかし、これらにかかわる前例のない安全リスクがある。
本研究は,一般のWebエージェントが敵対的環境下でのプライバシーリスクに関する最初の研究を行うことにより,このギャップを狭めることを目的としている。
まず、敵の標的、制約、攻撃シナリオについて議論する脅威モデルを提案する。
特に,ユーザの個人識別可能な情報(PII)を盗んだり,ユーザ要求全体を盗んだりする。
これらの目的を達成するために,環境注入攻撃(EIA)と呼ばれる新しい攻撃手法を提案する。
この攻撃は、エージェントが動作するさまざまな環境に順応するように設計された悪意のあるコンテンツを注入し、意図しないアクションを実行する。
この作業は、プライバシーシナリオに特化してEIAをインスタンス化する。
悪意のあるWeb要素を挿入し、Webエージェントを誤解させる命令と共に、プライベート情報を漏洩させ、さらにCSSとJavaScriptの機能を活用して、ステルス性を維持する。
我々は、Mind2Webデータセットから、現実的なWebサイト上の多様なPIIカテゴリを含む177のアクションステップを収集し、これまでで最も有能なジェネラリストWebエージェントフレームワークであるSeeeActを使用して、広範な実験を行う。
その結果、EIAはユーザーの特定のPIIを盗む際に最大70%のASRを達成することが示された。
完全なユーザリクエストのスタイリングはもっと難しいが、EIAの緩和バージョンは依然として16%のASRを達成することができる。
これらの結果にも拘わらず、高い自律性とセキュリティのトレードオフを浮き彫りにして、慎重に人間の検査によって攻撃が検出できることに注意する必要がある。
このことは,人事監督の異なるレベルにおけるEIAの有効性と,一般ウェブエージェントに対する防衛効果に関する詳細な議論につながっている。
関連論文リスト
- Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents [64.75036903373712]
Proposer-Agent-Evaluatorは、基礎モデルエージェントが野生のスキルを自律的に発見し、実践することを可能にする学習システムである。
PAEの中心となるタスクプロポーサは、エージェントがコンテキスト情報で実践するためのタスクを自律的に提案するコンテキスト対応タスクプロポーサである。
成功評価は、エージェントがRLを介してポリシーを洗練するための報酬信号として機能する。
論文 参考訳(メタデータ) (2024-12-17T18:59:50Z) - Hijacking Vision-and-Language Navigation Agents with Adversarial Environmental Attacks [12.96291706848273]
VLN(Vision-and-Language Navigation)は、視覚・言語ナビゲーションのタスク。
ホワイトボックスの敵攻撃は、事前訓練されたVLNエージェントの望ましい行動を引き起こすために開発された。
攻撃は早期終了行動を引き起こすか、攻撃者が定義した多段階軌道に沿ってエージェントを分散させることができる。
論文 参考訳(メタデータ) (2024-12-03T19:54:32Z) - Auto-Intent: Automated Intent Discovery and Self-Exploration for Large Language Model Web Agents [68.22496852535937]
本稿では,事前訓練された大規模言語モデル(LLM)を,直接微調整なしで対象ドメインのエージェントとして適用する手法であるAuto-Intentを紹介する。
提案手法はまず,対象領域の実証から意図を教師なしで発見する。
我々は、エージェントの過去の観察と行動から次の意図を予測するために、意図予測器を訓練する。
論文 参考訳(メタデータ) (2024-10-29T21:37:04Z) - AdvWeb: Controllable Black-box Attacks on VLM-powered Web Agents [22.682464365220916]
AdvWebは、Webエージェント向けに設計された新しいブラックボックス攻撃フレームワークである。
DPOを用いた逆プロンプトモデルの訓練と最適化を行う。
従来のアプローチとは異なり、我々の逆文字列注入はステルスと制御を維持している。
論文 参考訳(メタデータ) (2024-10-22T20:18:26Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Offensive AI: Enhancing Directory Brute-forcing Attack with the Use of Language Models [16.89878267176532]
Offensive AIは、AIベースの技術をサイバー攻撃に統合するパラダイムである。
そこで本研究では,AIがディレクトリ列挙プロセスを強化し,新しい言語モデルベースのフレームワークを提案する。
実験は、異なるWebアプリケーションドメインから100万のURLからなるテストベッドで実施され、平均パフォーマンスが969%向上したLMベースの攻撃の優位性を実証した。
論文 参考訳(メタデータ) (2024-04-22T12:40:38Z) - Towards Practical Deployment-Stage Backdoor Attack on Deep Neural
Networks [5.231607386266116]
ディープラーニングモデルに対するデプロイステージバックドア攻撃の現実的な脅威について検討する。
バックドアインジェクションのための最初のグレーボックスと物理的に実現可能な重み攻撃アルゴリズムを提案する。
本研究は,攻撃アルゴリズムの有効性と実用性を示すものである。
論文 参考訳(メタデータ) (2021-11-25T08:25:27Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Evaluating Attacker Risk Behavior in an Internet of Things Ecosystem [2.958532752589616]
サイバーセキュリティでは、攻撃者は真面目で、無知なスクリプト・キッズからステルス、忍耐強い脅威まで様々だ。
本研究は、攻撃者のリスク探索やリスク回避が、検出最適化ディフェンダーに対する操作にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2021-09-23T18:53:41Z) - Measurement-driven Security Analysis of Imperceptible Impersonation
Attacks [54.727945432381716]
本稿では,ディープニューラルネットワークを用いた顔認識システムの実用性について検討する。
皮膚の色,性別,年齢などの要因が,特定の標的に対する攻撃を行う能力に影響を及ぼすことを示す。
また,攻撃者の顔のさまざまなポーズや視点に対して堅牢なユニバーサルアタックを構築する可能性についても検討した。
論文 参考訳(メタデータ) (2020-08-26T19:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。