論文の概要: DECEPTICON: How Dark Patterns Manipulate Web Agents
- arxiv url: http://arxiv.org/abs/2512.22894v1
- Date: Sun, 28 Dec 2025 11:55:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.272469
- Title: DECEPTICON: How Dark Patterns Manipulate Web Agents
- Title(参考訳): DeCEPTICON: ダークパターンがWebエージェントを操作する方法
- Authors: Phil Cuvin, Hao Zhu, Diyi Yang,
- Abstract要約: ダークパターンは, ステアリング剤のトラジェクトリーに極めて有効であることを示す。
個別の暗黒パターンを個別にテストするための環境であるDECEPTICONを紹介する。
テストされた実世界のタスクの70%以上において、悪質な結果に対して、ダークパターンが成功した。
- 参考スコア(独自算出の注目度): 50.92538792133007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deceptive UI designs, widely instantiated across the web and commonly known as dark patterns, manipulate users into performing actions misaligned with their goals. In this paper, we show that dark patterns are highly effective in steering agent trajectories, posing a significant risk to agent robustness. To quantify this risk, we introduce DECEPTICON, an environment for testing individual dark patterns in isolation. DECEPTICON includes 700 web navigation tasks with dark patterns -- 600 generated tasks and 100 real-world tasks, designed to measure instruction-following success and dark pattern effectiveness. Across state-of-the-art agents, we find dark patterns successfully steer agent trajectories towards malicious outcomes in over 70% of tested generated and real-world tasks -- compared to a human average of 31%. Moreover, we find that dark pattern effectiveness correlates positively with model size and test-time reasoning, making larger, more capable models more susceptible. Leading countermeasures against adversarial attacks, including in-context prompting and guardrail models, fail to consistently reduce the success rate of dark pattern interventions. Our findings reveal dark patterns as a latent and unmitigated risk to web agents, highlighting the urgent need for robust defenses against manipulative designs.
- Abstract(参考訳): 知覚的なUIデザインは、Web全体で広くインスタンス化され、一般的にダークパターンとして知られ、ユーザを操作して、目標と一致しないアクションを実行する。
本稿では, ダークパターンが操舵剤の軌道に極めて有効であることを示し, エージェントの堅牢性に重大なリスクをもたらすことを示す。
このリスクを定量化するために,個別の暗黒パターンを個別にテストするための環境であるDECEPTICONを導入する。
DECEPTICONには、600の生成されたタスクと100の現実世界タスクを含む700のWebナビゲーションタスクが含まれており、命令追従の成功とダークパターンの有効性を測定するように設計されている。
最先端のエージェント全体では、人間の平均31%と比較すると、テストされた実世界のタスクの70%以上において、悪質な結果に対してダークパターンが成功した。
さらに、ダークパターンの有効性は、モデルのサイズとテスト時間推論と正の相関関係があり、より大きく、より有能なモデルをより受容しやすくする。
コンテキスト内プロンプトやガードレールモデルを含む敵の攻撃に対する主要な対策は、暗黒パターン介入の成功率を一貫して低下させることに失敗した。
本研究は, 暗黒パターンを潜伏・無害なWebエージェントのリスクとして明らかにし, マニピュティブデザインに対する堅牢な防御の必要性を浮き彫りにした。
関連論文リスト
- Investigating the Impact of Dark Patterns on LLM-Based Web Agents [16.297159088186888]
LLMベースのジェネラリストWebエージェントの意思決定過程に暗黒パターンが与える影響について検討する。
LiteAgentは、エージェントがタスクを実行するように自動的に促す軽量なフレームワークです。
また、eコマース、ストリーミングサービス、ニュースプラットフォームといったドメインからWebアプリケーションを構成する制御環境であるTrickyArenaについても紹介する。
論文 参考訳(メタデータ) (2025-10-20T21:26:26Z) - Dark Patterns Meet GUI Agents: LLM Agent Susceptibility to Manipulative Interfaces and the Role of Human Oversight [51.53020962098759]
本研究では,エージェント,ヒト参加者,ヒトAIチームが,さまざまなシナリオにまたがる16種類の暗黒パターンにどのように反応するかを検討する。
フェーズ1では、エージェントが暗黒パターンを認識するのに失敗することが多く、たとえ認識されたとしても、保護行動よりもタスク完了を優先することが強調される。
第2段階では、認知的ショートカットと習慣的コンプライアンスにより、人間はしゃがみ込み、エージェントは手続き的な盲点から遠ざかる。
論文 参考訳(メタデータ) (2025-09-12T22:26:31Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Getting Trapped in Amazon's "Iliad Flow": A Foundation for the Temporal Analysis of Dark Patterns [17.59481743387609]
本稿では,Amazon Primeの"Iliad Flow"を事例として,ユーザジャーニーにおけるダークパターンの相互作用を説明する。
我々はこのケーススタディを用いて、時間的暗黒パターン分析(TADP)の方法論の基礎を定めている。
論文 参考訳(メタデータ) (2023-09-18T10:12:52Z) - AidUI: Toward Automated Recognition of Dark Patterns in User Interfaces [6.922187804798161]
UIのダークパターンは、エンドユーザが意図したことのないアクションを取る(無意識に)ためのものです。
AidUIは、コンピュータビジョンと自然言語処理技術を用いて、10種類のユニークなUIダークパターンを認識する新しいアプローチである。
AidUIは、ダークパターンの検出において0.66、リコール0.67、F1スコア0.65の総合精度を実現し、検出されたパターンをIoUスコア0.84でローカライズすることができる。
論文 参考訳(メタデータ) (2023-03-12T23:46:04Z) - Detection Defense Against Adversarial Attacks with Saliency Map [7.736844355705379]
ニューラルネットワークは、人間の視覚にほとんど受容できない敵の例に弱いことがよく確認されている。
既存の防衛は、敵の攻撃に対するモデルの堅牢性を強化する傾向にある。
本稿では,新たな雑音と組み合わせた新しい手法を提案し,不整合戦略を用いて敵のサンプルを検出する。
論文 参考訳(メタデータ) (2020-09-06T13:57:17Z) - Orthogonal Deep Models As Defense Against Black-Box Attacks [71.23669614195195]
攻撃者が標的モデルに類似したモデルを用いて攻撃を発生させるブラックボックス設定における深層モデル固有の弱点について検討する。
本稿では,深部モデルの内部表現を他のモデルに直交させる新しい勾配正規化手法を提案する。
様々な大規模モデルにおいて,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2020-06-26T08:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。