論文の概要: Don't Click That: Teaching Web Agents to Resist Deceptive Interfaces
- arxiv url: http://arxiv.org/abs/2605.09497v1
- Date: Sun, 10 May 2026 12:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.280568
- Title: Don't Click That: Teaching Web Agents to Resist Deceptive Interfaces
- Title(参考訳): クリックしないで:Webエージェントに認知インターフェースを復活させる
- Authors: Yilin Zhang, Yingkai Hua, Chunyu Wei, Xin Wang, Yueguo Chen,
- Abstract要約: 視覚言語モデル(VLM)ベースのWebエージェントは、印象的なGUIインタラクションを示すが、認識インターフェース要素に弱いままである。
疑似認識型Webエージェントの防衛を形式化し,ハイブリッド・リワード学習と非対称なペナルティを組み合わせた2段階のフレームワークであるDUDE(Deceptive UI Detector & Evaluator)を提案する。
実験の結果、DUDEは、タスクパフォーマンスを維持しながら、騙しの感受性を53.8%削減し、堅牢なWebエージェントデプロイメントのための効果的な基盤を確立した。
- 参考スコア(独自算出の注目度): 12.062544433817408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language model (VLM) based web agents demonstrate impressive autonomous GUI interaction but remain vulnerable to deceptive interface elements. Existing approaches either detect deception without task integration or document attacks without proposing defenses. We formalize deception-aware web agent defense and propose DUDE (Deceptive UI Detector & Evaluator), a two-stage framework combining hybrid-reward learning with asymmetric penalties and experience summarization to distill failure patterns into transferable guidance. We introduce RUC (Real UI Clickboxes), a benchmark of 1,407 scenarios spanning four domains and deception categories. Experiments show DUDE reduces deception susceptibility by 53.8% while maintaining task performance, establishing an effective foundation for robust web agent deployment.
- Abstract(参考訳): 視覚言語モデル(VLM)ベースのWebエージェントは、印象的なGUIインタラクションを示すが、認識インターフェース要素に弱いままである。
既存のアプローチは、タスク統合なしで偽造を検知するか、防御を提案せずに文書攻撃を行う。
疑似認識型Webエージェントの防衛を形式化し,ハイブリッド・リワード学習と非対称なペナルティを組み合わせた2段階のフレームワークであるDUDE(Deceptive UI Detector & Evaluator)を提案する。
RUC(Real UI Clickboxes)は、4つのドメインにまたがる1,407のシナリオのベンチマークである。
実験の結果、DUDEは、タスクパフォーマンスを維持しながら、騙しの感受性を53.8%削減し、堅牢なWebエージェントデプロイメントのための効果的な基盤を確立した。
関連論文リスト
- WebAgentGuard: A Reasoning-Driven Guard Model for Detecting Prompt Injection Attacks in Web Agents [117.65855863464863]
Webエージェントはインジェクション攻撃に対して非常に脆弱である。
システム・プロンプト・ディフェンス(英語版)やエージェントの直接微調整を含む既存の防御は、効果が限られている。
本稿では,WebAgentGuardを導入し,インジェクション検出のためのマルチモーダルガードモデルを提案する。
論文 参考訳(メタデータ) (2026-04-14T04:50:35Z) - Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks [23.881766496924502]
本稿では,エージェントと攻撃者の相互作用を2人のプレイヤーによるゼロサムマルコフゲームとして形式化し,両プレイヤーを3段階のパイプラインで協調訓練するフレームワークを提案する。
提案手法は,訓練ベースおよび即時防御の確立に優れていた。
論文 参考訳(メタデータ) (2026-03-04T18:29:54Z) - It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。
動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。
本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文 参考訳(メタデータ) (2025-12-29T01:09:10Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents [74.6761188527948]
完全なシステムアクセスを持つコンピュータ利用エージェント(CUA)は、セキュリティとプライバシの重大なリスクを負う。
我々は、悪意のある命令がレンダリングされたユーザーインターフェイスに視覚的に埋め込まれた視覚的プロンプトインジェクション(VPI)攻撃について検討する。
実験により,現在のCUAとBUAは,それぞれのプラットフォーム上で最大51%,100%の速度で騙すことができることがわかった。
論文 参考訳(メタデータ) (2025-06-03T05:21:50Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。