論文の概要: Cross-Modal Content Optimization for Steering Web Agent Preferences
- arxiv url: http://arxiv.org/abs/2510.03612v1
- Date: Sat, 04 Oct 2025 01:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.152413
- Title: Cross-Modal Content Optimization for Steering Web Agent Preferences
- Title(参考訳): ステアリングWebエージェント選好のためのクロスモーダルコンテンツ最適化
- Authors: Tanqiu Jiang, Min Bai, Nikolaos Pappas, Yanjun Qi, Sandesh Swamy,
- Abstract要約: 項目の視覚的および自然言語的記述に対する知覚不可能な修正を共同で最適化するクロスモーダル・プライス・ステアリング(CPS)を導入する。
我々は,GPT-4.1,Qwen-2.5VL,Pixtral-Largeなど,最先端のプロプライエタリおよびオープンソースVLMをベースとしたエージェント上でのCPSを評価する。
- 参考スコア(独自算出の注目度): 16.32764997508559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language model (VLM)-based web agents increasingly power high-stakes selection tasks like content recommendation or product ranking by combining multimodal perception with preference reasoning. Recent studies reveal that these agents are vulnerable against attackers who can bias selection outcomes through preference manipulations using adversarial pop-ups, image perturbations, or content tweaks. Existing work, however, either assumes strong white-box access, with limited single-modal perturbations, or uses impractical settings. In this paper, we demonstrate, for the first time, that joint exploitation of visual and textual channels yields significantly more powerful preference manipulations under realistic attacker capabilities. We introduce Cross-Modal Preference Steering (CPS) that jointly optimizes imperceptible modifications to an item's visual and natural language descriptions, exploiting CLIP-transferable image perturbations and RLHF-induced linguistic biases to steer agent decisions. In contrast to prior studies that assume gradient access, or control over webpages, or agent memory, we adopt a realistic black-box threat setup: a non-privileged adversary can edit only their own listing's images and textual metadata, with no insight into the agent's model internals. We evaluate CPS on agents powered by state-of-the-art proprietary and open source VLMs including GPT-4.1, Qwen-2.5VL and Pixtral-Large on both movie selection and e-commerce tasks. Our results show that CPS is significantly more effective than leading baseline methods. For instance, our results show that CPS consistently outperforms baselines across all models while maintaining 70% lower detection rates, demonstrating both effectiveness and stealth. These findings highlight an urgent need for robust defenses as agentic systems play an increasingly consequential role in society.
- Abstract(参考訳): 視覚言語モデル(VLM)ベースのWebエージェントは、マルチモーダル認識と嗜好推論を組み合わせることで、コンテンツレコメンデーションや製品ランキングといったハイテイク選択タスクをますます強化する。
最近の研究によると、これらのエージェントは、敵のポップアップ、画像の摂動、コンテンツ修正を使った選好操作によって選択結果に偏見を与える攻撃者に対して脆弱であることが明らかになっている。
しかし、既存の作業は、単一モードの摂動が制限された強いホワイトボックスアクセスを前提とするか、あるいは非現実的な設定を使用するかのいずれかである。
本稿では,視覚的チャネルとテキストチャネルの併用により,現実的な攻撃能力下でのより強力な選好操作が実現できることを初めて実証する。
本稿では、CLIP変換可能な画像摂動とRLHFによる言語バイアスを利用して、アイテムの視覚的および自然言語的記述に対する知覚不可能な修正を共同で最適化するクロスモーダル選好ステアリング(CPS)を提案する。
ウェブページの勾配アクセスやエージェントメモリの制御を前提とした以前の研究とは対照的に、我々は現実的なブラックボックスの脅威設定を採用しています。
我々は,GPT-4.1,Qwen-2.5VL,Pixtral-Largeなど,最先端のプロプライエタリおよびオープンソースVLMをベースとしたエージェント上でのCPSを評価する。
以上の結果から,CPSは従来のベースライン法よりも有意に有効であることが示唆された。
例えば、我々の結果は、CPSが全体のベースラインを一貫して上回りながら、70%低い検出率を維持し、有効性とステルスの両方を実証していることを示している。
これらの知見は, エージェントシステムが社会において, ますます連続的な役割を担っているため, 堅牢な防衛の必要性が緊急に浮かび上がっている。
関連論文リスト
- ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - TRAP: Targeted Redirecting of Agentic Preferences [3.6293956720749425]
本稿では,拡散型セマンティックインジェクションを用いてエージェントの意思決定を制御する,生成的敵対的フレームワークであるTRAPを紹介する。
提案手法は, 負のプロンプトに基づく劣化と正のセマンティック最適化を組み合わせ, シームズ意味ネットワークとレイアウト対応空間マスキングによって導かれる。
TRAPはLLaVA-34B、Gemma3、Mistral-3.1など主要なモデルで100%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-29T14:57:16Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Disentangled Contrastive Collaborative Filtering [36.400303346450514]
グラフコントラスト学習(GCL)は、監督ラベル不足問題に対処する上で、強力な性能を示した。
本稿では,自己監督型拡張による意図的ゆがみを実現するために,DCCF(Disentangled Contrasative Collaborative Filtering framework)を提案する。
我々のDCCFは、絡み合った自己超越信号からより微細な潜伏因子を蒸留できるだけでなく、増大による騒音を軽減することができる。
論文 参考訳(メタデータ) (2023-05-04T11:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。