論文の概要: Machine-Readable Ads: Accessibility and Trust Patterns for AI Web Agents interacting with Online Advertisements
- arxiv url: http://arxiv.org/abs/2507.12844v1
- Date: Thu, 17 Jul 2025 07:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.379883
- Title: Machine-Readable Ads: Accessibility and Trust Patterns for AI Web Agents interacting with Online Advertisements
- Title(参考訳): 機械可読広告: オンライン音声と対話するAI Webエージェントのアクセシビリティと信頼パターン
- Authors: Joel Nitu, Heidrun Mühle, Andreas Stöckl,
- Abstract要約: マルチモーダル言語モデルは、Webエージェントに急速に進化し、ユーザに代わってアイテムを閲覧、クリック、購入することができます。
しかし、これらのエージェントが広告とどのように相互作用するか、あるいはどの設計原則が信頼できるエンゲージメントを保証するのかについては、ほとんど分かっていない。
我々は、様々な広告でシードされたニュースサイトTT.comの忠実なクローンを使用して、制御された実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous multimodal language models are rapidly evolving into web agents that can browse, click, and purchase items on behalf of users, posing a threat to display advertising designed for human eyes. Yet little is known about how these agents interact with ads or which design principles ensure reliable engagement. To address this, we ran a controlled experiment using a faithful clone of the news site TT.com, seeded with diverse ads: static banners, GIFs, carousels, videos, cookie dialogues, and paywalls. We ran 300 initial trials plus follow-ups using the Document Object Model (DOM)-centric Browser Use framework with GPT-4o, Claude 3.7 Sonnet, Gemini 2.0 Flash, and the pixel-based OpenAI Operator, across 10 realistic user tasks. Our results show these agents display severe satisficing: they never scroll beyond two viewports and ignore purely visual calls to action, clicking banners only when semantic button overlays or off-screen text labels are present. Critically, when sweepstake participation required a purchase, GPT-4o and Claude 3.7 Sonnet subscribed in 100% of trials, and Gemini 2.0 Flash in 70%, revealing gaps in cost-benefit analysis. We identified five actionable design principles-semantic overlays, hidden labels, top-left placement, static frames, and dialogue replacement, that make human-centric creatives machine-detectable without harming user experience. We also evaluated agent trustworthiness through "behavior patterns" such as cookie consent handling and subscription choices, highlighting model-specific risk boundaries and the urgent need for robust trust evaluation frameworks in real-world advertising.
- Abstract(参考訳): 自律的なマルチモーダル言語モデルは、ユーザーに代わってアイテムを閲覧、クリック、購入できるWebエージェントに急速に進化し、人間の目用にデザインされた広告を表示する脅威を生じさせている。
しかし、これらのエージェントが広告とどのように相互作用するか、あるいはどの設計原則が信頼できるエンゲージメントを保証するのかについては、ほとんど分かっていない。
これを解決するために、我々は、静的バナー、GIF、カルーセル、ビデオ、クッキーダイアログ、ペイウォールといった多様な広告でシードされたニュースサイトTT.comの忠実なクローンを使用して、制御された実験を行った。
GPT-4o、Claude 3.7 Sonnet、Gemini 2.0 Flash、およびピクセルベースのOpenAI Operatorを使ったDocument Object Model(DOM)中心のブラウザ利用フレームワークを使用して、300の初期トライアルとフォローアップを実行しました。
これらのエージェントは2つのビューポートを超えてスクロールせず、純粋に視覚的なアクション呼び出しを無視せず、セマンティックボタンオーバーレイやオフスクリーンテキストラベルが存在する場合にのみバナーをクリックします。
GPT-4oとClaude 3.7 Sonnetは100%のトライアルで、Gemini 2.0 Flashは70%で、費用対効果分析のギャップが明らかになった。
ユーザエクスペリエンスを損なうことなく,人間中心の創造性をマシンで検出可能な,アクション可能な設計原則とセマンティックなオーバーレイ,隠れラベル,トップレフト配置,静的フレーム,ダイアログ置換の5つを特定した。
また、クッキーの同意処理やサブスクリプション選択といった「行動パターン」を通じてエージェントの信頼性を評価するとともに、モデル固有のリスク境界を強調し、現実の広告における堅牢な信頼評価フレームワークの必要性を緊急に求めている。
関連論文リスト
- Hijacking JARVIS: Benchmarking Mobile GUI Agents against Unprivileged Third Parties [19.430061128447022]
本稿では,モバイルGUIエージェントの脆弱性に関する最初の系統的研究について述べる。
本稿では,スケーラブルな攻撃シミュレーションフレームワークであるAgentHazardを紹介した。
動的タスク実行環境と攻撃シナリオの静的データセットの両方からなるベンチマークスイートを開発する。
以上の結果から, 調査対象となったエージェントは, 誤解を招く第三者コンテンツに大きく影響していることが判明した。
論文 参考訳(メタデータ) (2025-07-06T03:31:36Z) - OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [34.396536936282175]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。
OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。
我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-06-17T17:59:31Z) - Screen Hijack: Visual Poisoning of VLM Agents in Mobile Environments [61.808686396077036]
GHOSTは視覚言語モデル(VLM)上に構築された移動体エージェントに特化して設計された最初のクリーンラベルバックドア攻撃である。
本手法は,トレーニングサンプルの一部の視覚入力のみを,対応するラベルや指示を変更することなく操作する。
実世界の6つのAndroidアプリとモバイルに適応した3つのVLMアーキテクチャを対象に,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents [74.6761188527948]
完全なシステムアクセスを持つコンピュータ利用エージェント(CUA)は、セキュリティとプライバシの重大なリスクを負う。
我々は、悪意のある命令がレンダリングされたユーザーインターフェイスに視覚的に埋め込まれた視覚的プロンプトインジェクション(VPI)攻撃について検討する。
実験により,現在のCUAとBUAは,それぞれのプラットフォーム上で最大51%,100%の速度で騙すことができることがわかった。
論文 参考訳(メタデータ) (2025-06-03T05:21:50Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - Monitoring Viewer Attention During Online Ads [0.5499796332553706]
大手ブランドは、新しい広告の好みと購入意図を測り、オンラインで募集された視聴者の顔の反応を分析して、自宅や職場から広告を見る。
不注意な参加者は、広告テストのプロセスを盗むのを避けるために、フラグを立てて排除するべきです。
オンライン広告中の視聴者の注意をモニタリングするアーキテクチャを導入する。
論文 参考訳(メタデータ) (2025-04-08T17:34:02Z) - Are AI Agents interacting with Online Ads? [0.0]
本研究では、異なるAIエージェントがオンライン広告とどのように相互作用するか、広告を意思決定プロセスに組み込むか、どの広告フォーマットが最も効果的かを検討する。
我々は,OpenAI GPT-4o, Anthropic Claude 3.7 Sonnet, Google Gemini 2.0 Flashなどのマルチモーダル言語モデルを用いた実験を通じて,インタラクションパターン,クリック行動,意思決定戦略を分析した。
論文 参考訳(メタデータ) (2025-03-20T08:38:57Z) - 50 Shades of Deceptive Patterns: A Unified Taxonomy, Multimodal Detection, and Security Implications [33.2581087304465]
認知パターン (DP) は意図しない決定にユーザを操作するために意図的に設計されたユーザインタフェースである。
セキュリティとプライバシの観点から、偽造パターンの分類を拡大し、カテゴリとスコープを洗練しました。
我々は,商用マルチモーダル・大規模言語モデル(MLLM)を利用した,認識パターン検出のための新しい自動ツールDPGuardを開発した。
論文 参考訳(メタデータ) (2025-01-23T03:28:38Z) - Dynamic Analysis and Adaptive Discriminator for Fake News Detection [59.41431561403343]
偽ニュース検出のための動的解析・適応識別器(DAAD)手法を提案する。
知識に基づく手法では,モンテカルロ木探索アルゴリズムを導入し,大規模言語モデルの自己表現能力を活用する。
意味に基づく手法では、偽ニュース生成のメカニズムを明らかにするために、典型的偽造パターンを4つ定義する。
論文 参考訳(メタデータ) (2024-08-20T14:13:54Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。