論文の概要: BrowseSafe: Understanding and Preventing Prompt Injection Within AI Browser Agents
- arxiv url: http://arxiv.org/abs/2511.20597v1
- Date: Tue, 25 Nov 2025 18:28:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.610762
- Title: BrowseSafe: Understanding and Preventing Prompt Injection Within AI Browser Agents
- Title(参考訳): ブラウザセーフ:AIブラウザエージェント内でのプロンプト注入の理解と防止
- Authors: Kaiyuan Zhang, Mark Tenenholtz, Kyle Polley, Jerry Ma, Denis Yarats, Ninghui Li,
- Abstract要約: 本稿では,実際のHTMLペイロードに埋め込まれた攻撃のベンチマークを合成し,インジェクション攻撃の現場を考察する。
私たちのベンチマークは、単なるテキスト出力ではなく、現実世界のアクションに影響を与えるインジェクションを強調することで、以前の作業を超えています。
アーキテクチャとモデルに基づく防御を両立する多層防衛戦略を提案する。
- 参考スコア(独自算出の注目度): 8.923854146974783
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The integration of artificial intelligence (AI) agents into web browsers introduces security challenges that go beyond traditional web application threat models. Prior work has identified prompt injection as a new attack vector for web agents, yet the resulting impact within real-world environments remains insufficiently understood. In this work, we examine the landscape of prompt injection attacks and synthesize a benchmark of attacks embedded in realistic HTML payloads. Our benchmark goes beyond prior work by emphasizing injections that can influence real-world actions rather than mere text outputs, and by presenting attack payloads with complexity and distractor frequency similar to what real-world agents encounter. We leverage this benchmark to conduct a comprehensive empirical evaluation of existing defenses, assessing their effectiveness across a suite of frontier AI models. We propose a multi-layered defense strategy comprising both architectural and model-based defenses to protect against evolving prompt injection attacks. Our work offers a blueprint for designing practical, secure web agents through a defense-in-depth approach.
- Abstract(参考訳): 人工知能(AI)エージェントをWebブラウザに統合することで、従来のWebアプリケーション脅威モデルを超えたセキュリティ上の課題がもたらされる。
これまでの研究では、プロンプトインジェクションはWebエージェントの新たな攻撃ベクターとして特定されていたが、実際の環境への影響は十分に理解されていない。
本研究では,実際のHTMLペイロードに埋め込まれた攻撃のベンチマークを合成し,インジェクション攻撃の現場を考察する。
私たちのベンチマークは、単なるテキスト出力ではなく、実際のアクションに影響を与えるインジェクションを強調し、実際のエージェントが遭遇するのと同じような複雑さと邪魔な頻度で攻撃ペイロードを提示することで、以前の作業を超えています。
我々はこのベンチマークを利用して、既存の防御の総合的な経験的評価を行い、フロンティアAIモデルのスイート間での有効性を評価する。
本稿では,迅速なインジェクション攻撃を防ぐために,アーキテクチャとモデルに基づく防御を両立する多層防衛戦略を提案する。
私たちの研究は、ディフェンス・イン・ディープス・アプローチを通じて実用的でセキュアなWebエージェントを設計するための青写真を提供する。
関連論文リスト
- AgentDyn: A Dynamic Open-Ended Benchmark for Evaluating Prompt Injection Attacks of Real-World Agent Security System [44.50700894734539]
AgentDynは60の挑戦的なオープンエンドタスクと560のインジェクションテストケースを特徴とするベンチマークである。
以前の静的ベンチマークとは異なり、AgentDynは動的プランニングを必要とし、有用なサードパーティの命令を組み込む。
最先端の10つの防衛に関する我々の評価は、既存の防衛のほとんどすべてが十分に安全でないか、重大な過防衛に悩まされていることを示唆している。
論文 参考訳(メタデータ) (2026-02-03T05:20:42Z) - When Bots Take the Bait: Exposing and Mitigating the Emerging Social Engineering Attack in Web Automation Agent [20.98129117390391]
本稿では,Webオートメーションエージェントに対する社会工学的攻撃に関する最初の体系的研究について述べる。
本稿では,エージェント実行における本質的な弱点を利用したエージェントベイトパラダイムを提案する。
本稿では,環境意図と整合性を考慮した軽量ランタイムモジュールSUPERVISORを提案する。
論文 参考訳(メタデータ) (2026-01-12T07:10:08Z) - It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。
動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。
本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文 参考訳(メタデータ) (2025-12-29T01:09:10Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。
本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-05-19T13:10:29Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks [36.97842000562324]
我々は、Pmptインジェクション攻撃に対するWeb Agent Securityのエンドツーエンド評価のための新しいベンチマークであるWASPを紹介する。
高度な推論能力を含むトップレベルのAIモデルでさえ、単純で低便なヒューマンインジェクションによって騙される可能性があることを示す。
攻撃は最大86%で部分的には成功したが、最先端のエージェントでさえ、攻撃者の目標を完全に満たすのに苦労することが多い。
論文 参考訳(メタデータ) (2025-04-22T17:51:03Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - AdvAgent: Controllable Blackbox Red-teaming on Web Agents [22.682464365220916]
AdvAgentは、Webエージェントを攻撃するためのブラックボックスのレッドチームフレームワークである。
強化学習に基づくパイプラインを使用して、敵のプロンプトモデルをトレーニングする。
慎重な攻撃設計では、エージェントの弱点を効果的に活用し、ステルス性と制御性を維持する。
論文 参考訳(メタデータ) (2024-10-22T20:18:26Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。