論文の概要: EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage
- arxiv url: http://arxiv.org/abs/2409.11295v1
- Date: Tue, 17 Sep 2024 15:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-18 15:57:32.578616
- Title: EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage
- Title(参考訳): EIA: プライバシ漏洩のためのジェネリストWebエージェントに対する環境注入攻撃
- Authors: Zeyi Liao, Lingbo Mo, Chejian Xu, Mintong Kang, Jiawei Zhang, Chaowei Xiao, Yuan Tian, Bo Li, Huan Sun,
- Abstract要約: 本稿では,敵の標的,制約,攻撃シナリオについて議論する脅威モデルを提案する。
ユーザ固有の個人識別情報(PII)を盗むか,あるいはユーザ要求全体を盗む。
これらの目的を達成するために,環境注入攻撃(EIA)と呼ばれる新しい攻撃手法を提案する。
- 参考スコア(独自算出の注目度): 40.82238259404402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalist web agents have evolved rapidly and demonstrated remarkable potential. However, there are unprecedented safety risks associated with these them, which are nearly unexplored so far. In this work, we aim to narrow this gap by conducting the first study on the privacy risks of generalist web agents in adversarial environments. First, we present a threat model that discusses the adversarial targets, constraints, and attack scenarios. Particularly, we consider two types of adversarial targets: stealing users' specific personally identifiable information (PII) or stealing the entire user request. To achieve these objectives, we propose a novel attack method, termed Environmental Injection Attack (EIA). This attack injects malicious content designed to adapt well to different environments where the agents operate, causing them to perform unintended actions. This work instantiates EIA specifically for the privacy scenario. It inserts malicious web elements alongside persuasive instructions that mislead web agents into leaking private information, and can further leverage CSS and JavaScript features to remain stealthy. We collect 177 actions steps that involve diverse PII categories on realistic websites from the Mind2Web dataset, and conduct extensive experiments using one of the most capable generalist web agent frameworks to date, SeeAct. The results demonstrate that EIA achieves up to 70% ASR in stealing users' specific PII. Stealing full user requests is more challenging, but a relaxed version of EIA can still achieve 16% ASR. Despite these concerning results, it is important to note that the attack can still be detectable through careful human inspection, highlighting a trade-off between high autonomy and security. This leads to our detailed discussion on the efficacy of EIA under different levels of human supervision as well as implications on defenses for generalist web agents.
- Abstract(参考訳): ジェネラリストのウェブエージェントは急速に進化し、驚くべき可能性を示している。
しかし、これらにかかわる前例のない安全リスクがある。
本研究は,一般のWebエージェントが敵対的環境下でのプライバシーリスクに関する最初の研究を行うことにより,このギャップを狭めることを目的としている。
まず、敵の標的、制約、攻撃シナリオについて議論する脅威モデルを提案する。
特に,ユーザの個人識別可能な情報(PII)を盗んだり,ユーザ要求全体を盗んだりする。
これらの目的を達成するために,環境注入攻撃(EIA)と呼ばれる新しい攻撃手法を提案する。
この攻撃は、エージェントが動作するさまざまな環境に順応するように設計された悪意のあるコンテンツを注入し、意図しないアクションを実行する。
この作業は、プライバシーシナリオに特化してEIAをインスタンス化する。
悪意のあるWeb要素を挿入し、Webエージェントを誤解させる命令と共に、プライベート情報を漏洩させ、さらにCSSとJavaScriptの機能を活用して、ステルス性を維持する。
我々は、Mind2Webデータセットから、現実的なWebサイト上の多様なPIIカテゴリを含む177のアクションステップを収集し、これまでで最も有能なジェネラリストWebエージェントフレームワークであるSeeeActを使用して、広範な実験を行う。
その結果、EIAはユーザーの特定のPIIを盗む際に最大70%のASRを達成することが示された。
完全なユーザリクエストのスタイリングはもっと難しいが、EIAの緩和バージョンは依然として16%のASRを達成することができる。
これらの結果にも拘わらず、高い自律性とセキュリティのトレードオフを浮き彫りにして、慎重に人間の検査によって攻撃が検出できることに注意する必要がある。
このことは,人事監督の異なるレベルにおけるEIAの有効性と,一般ウェブエージェントに対する防衛効果に関する詳細な議論につながっている。
関連論文リスト
- WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks [36.97842000562324]
WASPと呼ばれるベンチマークでは、現実的なWebエージェントのハイジャックと、それらをテストするための独立した環境が導入されている。
我々の評価は、高度な推論能力を持つモデルに支えられたAIエージェントでさえ、低便宜な人手によるプロンプトインジェクションの影響を受けやすいことを示している。
エージェントは16~86%の時間で敵の指示を実行開始するが、0~17%の時間しか目標を達成できない。
論文 参考訳(メタデータ) (2025-04-22T17:51:03Z) - DoomArena: A framework for Testing AI Agents Against Evolving Security Threats [84.94654617852322]
本稿では,AIエージェントのセキュリティ評価フレームワークであるDoomArenaを紹介する。
プラグインフレームワークであり、現実的なエージェントフレームワークと簡単に統合できる。
モジュールであり、エージェントがデプロイされる環境の詳細から攻撃の開発を分離する。
論文 参考訳(メタデータ) (2025-04-18T20:36:10Z) - Real AI Agents with Fake Memories: Fatal Context Manipulation Attacks on Web3 Agents [36.49717045080722]
本稿では,ブロックチェーンベースの金融エコシステムにおけるAIエージェントの脆弱性を,現実のシナリオにおける敵対的脅威に曝露した場合に検討する。
我々は、保護されていないコンテキスト表面を利用する包括的攻撃ベクトルであるコンテキスト操作の概念を導入する。
これらの脆弱性を定量化するために、コンテキスト操作攻撃に対するAIエージェントの堅牢性を評価するWeb3ドメイン固有のベンチマークであるCrAIBenchを設計する。
論文 参考訳(メタデータ) (2025-03-20T15:44:31Z) - AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents [75.85554113398626]
我々は、既存のAIエージェントと将来のAIエージェントが、潜在的にプライベートな情報の処理をどの程度制限できるかを評価するために、AgentDAMと呼ばれるベンチマークを開発する。
我々のベンチマークは、現実的なWebインタラクションシナリオをシミュレートし、既存のWebナビゲーションエージェントすべてに適用できる。
論文 参考訳(メタデータ) (2025-03-12T19:30:31Z) - Evaluating the Robustness of Multimodal Agents Against Active Environmental Injection Attacks [7.480236701595425]
本研究では,AIエージェントが環境中の「インポスタ」を検出する能力について検討した。
重大な脅威攻撃者は、悪意のある攻撃を環境要素として偽装し、エージェントの実行プロセスにアクティブな障害を注入することができる。
AEIA-MNは,MLLMをベースとしたエージェントのロバスト性を評価するために,モバイルオペレーティングシステムのインタラクション脆弱性を利用する攻撃手法である。
論文 参考訳(メタデータ) (2025-02-18T17:01:28Z) - Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents [64.75036903373712]
Proposer-Agent-Evaluatorは、基礎モデルエージェントが野生のスキルを自律的に発見し、実践することを可能にする学習システムである。
PAEの中心となるタスクプロポーサは、エージェントがコンテキスト情報で実践するためのタスクを自律的に提案するコンテキスト対応タスクプロポーサである。
成功評価は、エージェントがRLを介してポリシーを洗練するための報酬信号として機能する。
論文 参考訳(メタデータ) (2024-12-17T18:59:50Z) - Auto-Intent: Automated Intent Discovery and Self-Exploration for Large Language Model Web Agents [68.22496852535937]
本稿では,事前訓練された大規模言語モデル(LLM)を,直接微調整なしで対象ドメインのエージェントとして適用する手法であるAuto-Intentを紹介する。
提案手法はまず,対象領域の実証から意図を教師なしで発見する。
我々は、エージェントの過去の観察と行動から次の意図を予測するために、意図予測器を訓練する。
論文 参考訳(メタデータ) (2024-10-29T21:37:04Z) - Countering Autonomous Cyber Threats [40.00865970939829]
ファンデーションモデルは、サイバードメイン内で広く、特に二元的関心事を提示します。
近年の研究では、これらの先進的なモデルが攻撃的なサイバースペース操作を通知または独立に実行する可能性を示している。
この研究は、孤立したネットワークでマシンを妥協する能力について、最先端のいくつかのFMを評価し、そのようなAIによる攻撃を倒す防御メカニズムを調査する。
論文 参考訳(メタデータ) (2024-10-23T22:46:44Z) - AdvWeb: Controllable Black-box Attacks on VLM-powered Web Agents [22.682464365220916]
AdvWebは、Webエージェント向けに設計された新しいブラックボックス攻撃フレームワークである。
DPOを用いた逆プロンプトモデルの訓練と最適化を行う。
従来のアプローチとは異なり、我々の逆文字列注入はステルスと制御を維持している。
論文 参考訳(メタデータ) (2024-10-22T20:18:26Z) - Offensive AI: Enhancing Directory Brute-forcing Attack with the Use of Language Models [16.89878267176532]
Offensive AIは、AIベースの技術をサイバー攻撃に統合するパラダイムである。
そこで本研究では,AIがディレクトリ列挙プロセスを強化し,新しい言語モデルベースのフレームワークを提案する。
実験は、異なるWebアプリケーションドメインから100万のURLからなるテストベッドで実施され、平均パフォーマンスが969%向上したLMベースの攻撃の優位性を実証した。
論文 参考訳(メタデータ) (2024-04-22T12:40:38Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Towards Practical Deployment-Stage Backdoor Attack on Deep Neural
Networks [5.231607386266116]
ディープラーニングモデルに対するデプロイステージバックドア攻撃の現実的な脅威について検討する。
バックドアインジェクションのための最初のグレーボックスと物理的に実現可能な重み攻撃アルゴリズムを提案する。
本研究は,攻撃アルゴリズムの有効性と実用性を示すものである。
論文 参考訳(メタデータ) (2021-11-25T08:25:27Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Automating Privilege Escalation with Deep Reinforcement Learning [71.87228372303453]
本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。
本稿では,最先端の強化学習アルゴリズムを用いて,局所的な特権エスカレーションを行うエージェントを提案する。
我々のエージェントは、実際の攻撃センサーデータを生成し、侵入検知システムの訓練と評価に利用できる。
論文 参考訳(メタデータ) (2021-10-04T12:20:46Z) - Evaluating Attacker Risk Behavior in an Internet of Things Ecosystem [2.958532752589616]
サイバーセキュリティでは、攻撃者は真面目で、無知なスクリプト・キッズからステルス、忍耐強い脅威まで様々だ。
本研究は、攻撃者のリスク探索やリスク回避が、検出最適化ディフェンダーに対する操作にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2021-09-23T18:53:41Z) - Measurement-driven Security Analysis of Imperceptible Impersonation
Attacks [54.727945432381716]
本稿では,ディープニューラルネットワークを用いた顔認識システムの実用性について検討する。
皮膚の色,性別,年齢などの要因が,特定の標的に対する攻撃を行う能力に影響を及ぼすことを示す。
また,攻撃者の顔のさまざまなポーズや視点に対して堅牢なユニバーサルアタックを構築する可能性についても検討した。
論文 参考訳(メタデータ) (2020-08-26T19:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。