Fugu-MT 論文翻訳(概要): When Bots Take the Bait: Exposing and Mitigating the Emerging Social Engineering Attack in Web Automation Agent

論文の概要: When Bots Take the Bait: Exposing and Mitigating the Emerging Social Engineering Attack in Web Automation Agent

arxiv url: http://arxiv.org/abs/2601.07263v1
Date: Mon, 12 Jan 2026 07:10:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-13 19:08:01.255727
Title: When Bots Take the Bait: Exposing and Mitigating the Emerging Social Engineering Attack in Web Automation Agent
Title（参考訳）: Webオートメーションエージェントにおける新たなソーシャルエンジニアリング攻撃の実施と緩和
Authors: Xinyi Wu, Geng Hong, Yueyue Chen, MingXuan Liu, Feier Jin, Xudong Pan, Jiarun Dai, Baojun Liu,
Abstract要約: 本稿では,Webオートメーションエージェントに対する社会工学的攻撃に関する最初の体系的研究について述べる。本稿では,エージェント実行における本質的な弱点を利用したエージェントベイトパラダイムを提案する。本稿では,環境意図と整合性を考慮した軽量ランタイムモジュールSUPERVISORを提案する。
参考スコア（独自算出の注目度）: 20.98129117390391
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Web agents, powered by large language models (LLMs), are increasingly deployed to automate complex web interactions. The rise of open-source frameworks (e.g., Browser Use, Skyvern-AI) has accelerated adoption, but also broadened the attack surface. While prior research has focused on model threats such as prompt injection and backdoors, the risks of social engineering remain largely unexplored. We present the first systematic study of social engineering attacks against web automation agents and design a pluggable runtime mitigation solution. On the attack side, we introduce the AgentBait paradigm, which exploits intrinsic weaknesses in agent execution: inducement contexts can distort the agent's reasoning and steer it toward malicious objectives misaligned with the intended task. On the defense side, we propose SUPERVISOR, a lightweight runtime module that enforces environment and intention consistency alignment between webpage context and intended goals to mitigate unsafe operations before execution. Empirical results show that mainstream frameworks are highly vulnerable to AgentBait, with an average attack success rate of 67.5% and peaks above 80% under specific strategies (e.g., trusted identity forgery). Compared with existing lightweight defenses, our module can be seamlessly integrated across different web automation frameworks and reduces attack success rates by up to 78.1% on average while incurring only a 7.7% runtime overhead and preserving usability. This work reveals AgentBait as a critical new threat surface for web agents and establishes a practical, generalizable defense, advancing the security of this rapidly emerging ecosystem. We reported the details of this attack to the framework developers and received acknowledgment before submission.
Abstract（参考訳）: 大規模言語モデル(LLM)を利用するWebエージェントは、複雑なWebインタラクションを自動化するために、ますます多くデプロイされている。オープンソースフレームワーク(Browser Use、Skyvern-AIなど)の台頭は採用を加速する一方で、攻撃面も拡大している。これまでの研究では、インジェクションやバックドアなどのモデル脅威に焦点が当てられていたが、社会工学のリスクは未解明のままである。本稿では,Webオートメーションエージェントに対するソーシャルエンジニアリング攻撃に関する最初の体系的研究と,プラグイン可能なランタイム緩和ソリューションの設計について述べる。本稿では,エージェント実行における本質的な弱点を生かしたAgenBaitパラダイムを紹介し,エージェントの推論を歪曲し,意図したタスクと不一致な悪意のある目標に向けて判断する。防衛面では、Webページコンテキストと意図された目標との間の環境と意図的な整合性を確保する軽量ランタイムモジュールであるSUPERVISORを提案し、実行前に安全でない操作を緩和する。実証的な結果によると、メインストリームフレームワークはAgentBaitに対して非常に脆弱であり、攻撃の成功率は67.5%であり、特定の戦略(信頼されたアイデンティティ偽造など)で80%以上に達する。既存の軽量ディフェンスと比較して、当社のモジュールは異なるWebオートメーションフレームワーク間でシームレスに統合することができ、攻撃成功率を平均78.1%まで下げると同時に、ランタイムオーバーヘッドの7.7%しか発生せず、ユーザビリティを保っている。この研究は、AgentBaitをWebエージェントにとって重要な新しい脅威サーフェスとして明らかにし、この急速に出現するエコシステムのセキュリティを推進し、実用的で汎用的な防御を確立します。我々は、この攻撃の詳細をフレームワーク開発者に報告し、提出前に承認を得た。

関連論文リスト

It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文参考訳（メタデータ） (2025-12-29T01:09:10Z)
BrowseSafe: Understanding and Preventing Prompt Injection Within AI Browser Agents [8.923854146974783]
本稿では,実際のHTMLペイロードに埋め込まれた攻撃のベンチマークを合成し,インジェクション攻撃の現場を考察する。私たちのベンチマークは、単なるテキスト出力ではなく、現実世界のアクションに影響を与えるインジェクションを強調することで、以前の作業を超えています。アーキテクチャとモデルに基づく防御を両立する多層防衛戦略を提案する。
論文参考訳（メタデータ） (2025-11-25T18:28:35Z)
Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。攻撃パラダイムを初期感染と持続性という2つの段階に分類する。当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文参考訳（メタデータ） (2025-09-19T04:10:52Z)
Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。 Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文参考訳（メタデータ） (2025-07-28T05:13:04Z)
OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文参考訳（メタデータ） (2025-07-08T16:18:54Z)
Context manipulation attacks : Web agents are susceptible to corrupted memory [37.66661108936654]
Plan Injection"は、これらのエージェントの内部タスク表現を、この脆弱なコンテキストをターゲットとして破壊する、新しいコンテキスト操作攻撃である。プランインジェクションはロバスト・プロンプト・インジェクション・ディフェンスを回避し,攻撃成功率を同等のプロンプト・ベース・アタックの最大3倍に向上することを示す。この結果から,安全なメモリ処理はエージェントシステムにおける第一級の関心事であることが示唆された。
論文参考訳（メタデータ） (2025-06-18T14:29:02Z)
Mind the Web: The Security of Web Use Agents [11.075673765065103]
本稿では,Webページに悪意のあるコンテンツを埋め込むことで,攻撃者がWeb利用エージェントを利用する方法を示す。本稿では,悪質なコマンドをタスクガイダンスとしてフレーム化するタスクアラインインジェクション手法を提案する。本稿では,監視機構,実行制約,タスク認識推論技術などを含む包括的緩和戦略を提案する。
論文参考訳（メタデータ） (2025-06-08T13:59:55Z)
The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文参考訳（メタデータ） (2025-05-19T13:10:29Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
AdvAgent: Controllable Blackbox Red-teaming on Web Agents [22.682464365220916]
AdvAgentは、Webエージェントを攻撃するためのブラックボックスのレッドチームフレームワークである。強化学習に基づくパイプラインを使用して、敵のプロンプトモデルをトレーニングする。慎重な攻撃設計では、エージェントの弱点を効果的に活用し、ステルス性と制御性を維持する。
論文参考訳（メタデータ） (2024-10-22T20:18:26Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。