Fugu-MT 論文翻訳(概要): EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage

論文の概要: EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage

arxiv url: http://arxiv.org/abs/2409.11295v2
Date: Fri, 4 Oct 2024 02:08:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 20:13:03.713118
Title: EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage
Title（参考訳）: EIA: プライバシ漏洩のためのジェネリストWebエージェントに対する環境注入攻撃
Authors: Zeyi Liao, Lingbo Mo, Chejian Xu, Mintong Kang, Jiawei Zhang, Chaowei Xiao, Yuan Tian, Bo Li, Huan Sun,
Abstract要約: 敵環境におけるジェネラリストWebエージェントのプライバシーリスクに関する最初の研究を行う。まず,Webサイト上での攻撃に対する現実的な脅威モデルを提示し,ユーザ固有のPIIを盗むか,あるいはユーザ要求全体に対して,敵対的な2つのターゲットを検討する。我々は、Mind2Webから様々なPIIカテゴリを含む177のアクションステップを収集し、これまでで最も有能なジェネラリストWebエージェントフレームワークの1つを使用して実験を行う。
参考スコア（独自算出の注目度）: 40.82238259404402
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generalist web agents have demonstrated remarkable potential in autonomously completing a wide range of tasks on real websites, significantly boosting human productivity. However, web tasks, such as booking flights, usually involve users' PII, which may be exposed to potential privacy risks if web agents accidentally interact with compromised websites, a scenario that remains largely unexplored in the literature. In this work, we narrow this gap by conducting the first study on the privacy risks of generalist web agents in adversarial environments. First, we present a realistic threat model for attacks on the website, where we consider two adversarial targets: stealing users' specific PII or the entire user request. Then, we propose a novel attack method, termed Environmental Injection Attack (EIA). EIA injects malicious content designed to adapt well to environments where the agents operate and our work instantiates EIA specifically for privacy scenarios in web environments. We collect 177 action steps that involve diverse PII categories on realistic websites from the Mind2Web, and conduct experiments using one of the most capable generalist web agent frameworks to date. The results demonstrate that EIA achieves up to 70% ASR in stealing specific PII and 16% ASR for full user request. Additionally, by accessing the stealthiness and experimenting with a defensive system prompt, we indicate that EIA is hard to detect and mitigate. Notably, attacks that are not well adapted for a webpage can be detected via human inspection, leading to our discussion about the trade-off between security and autonomy. However, extra attackers' efforts can make EIA seamlessly adapted, rendering such supervision ineffective. Thus, we further discuss the defenses at the pre- and post-deployment stages of the websites without relying on human supervision and call for more advanced defense strategies.
Abstract（参考訳）: ジェネラリストのウェブエージェントは、実際のウェブサイトで広範囲のタスクを自律的に完了させ、人間の生産性を著しく向上させる驚くべき可能性を示してきた。しかし、フライトの予約のようなウェブタスクは、通常ユーザーのPIIを介し、Webエージェントが誤って侵害されたウェブサイトと対話した場合、潜在的にプライバシー上のリスクにさらされる可能性がある。本研究では,敵環境におけるジェネラリストWebエージェントのプライバシーリスクに関する最初の研究を行うことにより,このギャップを狭める。まず,Webサイト上での攻撃に対する現実的な脅威モデルを提示し,ユーザ固有のPIIを盗むか,あるいはユーザ要求全体に対して,敵対的な2つのターゲットを検討する。次に,環境注入攻撃(EIA)と呼ばれる新しい攻撃手法を提案する。 EIAは、エージェントが操作する環境に順応するように設計された悪意のあるコンテンツを注入し、我々の作業は、Web環境のプライバシーシナリオに特化してEIAをインスタンス化する。我々は、Mind2Webから様々なPIIカテゴリを含む177のアクションステップを収集し、これまでで最も有能なジェネラリストWebエージェントフレームワークの1つを使用して実験を行う。その結果、EIAは特定のPIIを盗む際に最大70%のASRを達成し、16%のASRを全ユーザ要求で達成した。さらに、ステルスネスにアクセスして防衛システムプロンプトを試すことにより、EIAは検出および緩和が困難であることを示す。特に、Webページに適さない攻撃は、人間の検査によって検出できるため、セキュリティと自律性の間のトレードオフに関する議論につながります。しかし、追加の攻撃者の努力はEIAをシームレスに適応させ、そのような監督を効果的にしない。そこで我々は,人事監督に頼らず,より先進的な防衛戦略を求めることなく,Webサイトの前・後段階での防衛についてさらに議論する。

関連論文リスト

Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。 Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文参考訳（メタデータ） (2025-07-28T05:13:04Z)
WebGuard: Building a Generalizable Guardrail for Web Agents [59.31116061613742]
WebGuardは、Webエージェントアクションリスクの評価をサポートするために設計された最初のデータセットである。その中には、22のドメインにわたる193のWebサイトからの4,939の人手によるアノテートアクションが含まれている。
論文参考訳（メタデータ） (2025-07-18T18:06:27Z)
Context manipulation attacks : Web agents are susceptible to corrupted memory [37.66661108936654]
Plan Injection"は、これらのエージェントの内部タスク表現を、この脆弱なコンテキストをターゲットとして破壊する、新しいコンテキスト操作攻撃である。プランインジェクションはロバスト・プロンプト・インジェクション・ディフェンスを回避し,攻撃成功率を同等のプロンプト・ベース・アタックの最大3倍に向上することを示す。この結果から,安全なメモリ処理はエージェントシステムにおける第一級の関心事であることが示唆された。
論文参考訳（メタデータ） (2025-06-18T14:29:02Z)
AdInject: Real-World Black-Box Attacks on Web Agents via Advertising Delivery [19.989518524625954]
Vision-Language Model (VLM)ベースのWeb Agentは、Webサイトとの人間的なインタラクションをシミュレートすることによって、複雑なタスクを自動化するためのステップである。敵の環境注入攻撃に関する既存の研究は、しばしば非現実的な仮定に依存している。本稿では,インターネット広告配信を活用して悪意のあるコンテンツをWebエージェントの環境に注入する,新規で現実的なブラックボックス攻撃手法であるAdInjectを提案する。
論文参考訳（メタデータ） (2025-05-27T17:59:05Z)
SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。 AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文参考訳（メタデータ） (2025-05-23T10:56:06Z)
The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文参考訳（メタデータ） (2025-05-19T13:10:29Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks [36.97842000562324]
WASPと呼ばれるベンチマークでは、現実的なWebエージェントのハイジャックと、それらをテストするための独立した環境が導入されている。我々の評価は、高度な推論能力を持つモデルに支えられたAIエージェントでさえ、低便宜な人手によるプロンプトインジェクションの影響を受けやすいことを示している。エージェントは16～86%の時間で敵の指示を実行開始するが、0～17%の時間しか目標を達成できない。
論文参考訳（メタデータ） (2025-04-22T17:51:03Z)
DoomArena: A framework for Testing AI Agents Against Evolving Security Threats [84.94654617852322]
本稿では,AIエージェントのセキュリティ評価フレームワークであるDoomArenaを紹介する。プラグインフレームワークであり、現実的なエージェントフレームワークと簡単に統合できる。モジュールであり、エージェントがデプロイされる環境の詳細から攻撃の開発を分離する。
論文参考訳（メタデータ） (2025-04-18T20:36:10Z)
Real AI Agents with Fake Memories: Fatal Context Manipulation Attacks on Web3 Agents [36.49717045080722]
本稿では,ブロックチェーンベースの金融エコシステムにおけるAIエージェントの脆弱性を,現実のシナリオにおける敵対的脅威に曝露した場合に検討する。我々は、保護されていないコンテキスト表面を利用する包括的攻撃ベクトルであるコンテキスト操作の概念を導入する。これらの脆弱性を定量化するために、コンテキスト操作攻撃に対するAIエージェントの堅牢性を評価するWeb3ドメイン固有のベンチマークであるCrAIBenchを設計する。
論文参考訳（メタデータ） (2025-03-20T15:44:31Z)
AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents [75.85554113398626]
我々は、既存のAIエージェントと将来のAIエージェントが、潜在的にプライベートな情報の処理をどの程度制限できるかを評価するために、AgentDAMと呼ばれるベンチマークを開発する。我々のベンチマークは、現実的なWebインタラクションシナリオをシミュレートし、既存のWebナビゲーションエージェントすべてに適用できる。
論文参考訳（メタデータ） (2025-03-12T19:30:31Z)
Evaluating the Robustness of Multimodal Agents Against Active Environmental Injection Attacks [7.480236701595425]
本研究では,AIエージェントが環境中の「インポスタ」を検出する能力について検討した。重大な脅威攻撃者は、悪意のある攻撃を環境要素として偽装し、エージェントの実行プロセスにアクティブな障害を注入することができる。 AEIA-MNは,MLLMをベースとしたエージェントのロバスト性を評価するために,モバイルオペレーティングシステムのインタラクション脆弱性を利用する攻撃手法である。
論文参考訳（メタデータ） (2025-02-18T17:01:28Z)
Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents [64.75036903373712]
Proposer-Agent-Evaluatorは、基礎モデルエージェントが野生のスキルを自律的に発見し、実践することを可能にする学習システムである。 PAEの中心となるタスクプロポーサは、エージェントがコンテキスト情報で実践するためのタスクを自律的に提案するコンテキスト対応タスクプロポーサである。成功評価は、エージェントがRLを介してポリシーを洗練するための報酬信号として機能する。
論文参考訳（メタデータ） (2024-12-17T18:59:50Z)
Auto-Intent: Automated Intent Discovery and Self-Exploration for Large Language Model Web Agents [68.22496852535937]
本稿では,事前訓練された大規模言語モデル(LLM)を,直接微調整なしで対象ドメインのエージェントとして適用する手法であるAuto-Intentを紹介する。提案手法はまず,対象領域の実証から意図を教師なしで発見する。我々は、エージェントの過去の観察と行動から次の意図を予測するために、意図予測器を訓練する。
論文参考訳（メタデータ） (2024-10-29T21:37:04Z)
Countering Autonomous Cyber Threats [40.00865970939829]
ファンデーションモデルは、サイバードメイン内で広く、特に二元的関心事を提示します。近年の研究では、これらの先進的なモデルが攻撃的なサイバースペース操作を通知または独立に実行する可能性を示している。この研究は、孤立したネットワークでマシンを妥協する能力について、最先端のいくつかのFMを評価し、そのようなAIによる攻撃を倒す防御メカニズムを調査する。
論文参考訳（メタデータ） (2024-10-23T22:46:44Z)
AdvWeb: Controllable Black-box Attacks on VLM-powered Web Agents [22.682464365220916]
AdvWebは、Webエージェント向けに設計された新しいブラックボックス攻撃フレームワークである。 DPOを用いた逆プロンプトモデルの訓練と最適化を行う。従来のアプローチとは異なり、我々の逆文字列注入はステルスと制御を維持している。
論文参考訳（メタデータ） (2024-10-22T20:18:26Z)
Offensive AI: Enhancing Directory Brute-forcing Attack with the Use of Language Models [16.89878267176532]
Offensive AIは、AIベースの技術をサイバー攻撃に統合するパラダイムである。そこで本研究では,AIがディレクトリ列挙プロセスを強化し,新しい言語モデルベースのフレームワークを提案する。実験は、異なるWebアプリケーションドメインから100万のURLからなるテストベッドで実施され、平均パフォーマンスが969%向上したLMベースの攻撃の優位性を実証した。
論文参考訳（メタデータ） (2024-04-22T12:40:38Z)
Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文参考訳（メタデータ） (2022-07-20T19:49:09Z)
Towards Practical Deployment-Stage Backdoor Attack on Deep Neural Networks [5.231607386266116]
ディープラーニングモデルに対するデプロイステージバックドア攻撃の現実的な脅威について検討する。バックドアインジェクションのための最初のグレーボックスと物理的に実現可能な重み攻撃アルゴリズムを提案する。本研究は,攻撃アルゴリズムの有効性と実用性を示すものである。
論文参考訳（メタデータ） (2021-11-25T08:25:27Z)
Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文参考訳（メタデータ） (2021-11-23T23:42:16Z)
Automating Privilege Escalation with Deep Reinforcement Learning [71.87228372303453]
本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。本稿では,最先端の強化学習アルゴリズムを用いて,局所的な特権エスカレーションを行うエージェントを提案する。我々のエージェントは、実際の攻撃センサーデータを生成し、侵入検知システムの訓練と評価に利用できる。
論文参考訳（メタデータ） (2021-10-04T12:20:46Z)
Evaluating Attacker Risk Behavior in an Internet of Things Ecosystem [2.958532752589616]
サイバーセキュリティでは、攻撃者は真面目で、無知なスクリプト・キッズからステルス、忍耐強い脅威まで様々だ。本研究は、攻撃者のリスク探索やリスク回避が、検出最適化ディフェンダーに対する操作にどのように影響するかを考察する。
論文参考訳（メタデータ） (2021-09-23T18:53:41Z)
Measurement-driven Security Analysis of Imperceptible Impersonation Attacks [54.727945432381716]
本稿では,ディープニューラルネットワークを用いた顔認識システムの実用性について検討する。皮膚の色,性別,年齢などの要因が,特定の標的に対する攻撃を行う能力に影響を及ぼすことを示す。また,攻撃者の顔のさまざまなポーズや視点に対して堅牢なユニバーサルアタックを構築する可能性についても検討した。
論文参考訳（メタデータ） (2020-08-26T19:27:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。