論文の概要: Penny Wise, Pixel Foolish: Bypassing Price Constraints in Multimodal Agents via Visual Adversarial Perturbations
- arxiv url: http://arxiv.org/abs/2604.16515v1
- Date: Wed, 15 Apr 2026 10:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.044464
- Title: Penny Wise, Pixel Foolish: Bypassing Price Constraints in Multimodal Agents via Visual Adversarial Perturbations
- Title(参考訳): Penny Wise, Pixel Foolish:視覚的対向摂動によるマルチモーダルエージェントの価格制約の回避
- Authors: Jiachen Qian, Zhaolu Kang,
- Abstract要約: スクリーンショットベース評価のためのステルスなホワイトボックス対逆攻撃フレームワークを提案する。
PriceBlindはSemantic-Decoupling Lossを介してCLIPベースのエンコーダのモダリティギャップを利用する。
E-ShopBenchでは、PriceBlindはホワイトボックスの評価で約80%のASRを達成する。
- 参考スコア(独自算出の注目度): 1.2916788049052081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid proliferation of Multimodal Large Language Models (MLLMs) has enabled mobile agents to execute high-stakes financial transactions, but their adversarial robustness remains underexplored. We identify Visual Dominance Hallucination (VDH), where imperceptible visual cues can override textual price evidence in screenshot-based, price-constrained settings and lead agents to irrational decisions. We propose PriceBlind, a stealthy white-box adversarial attack framework for controlled screenshot-based evaluation. PriceBlind exploits the modality gap in CLIP-based encoders via a Semantic-Decoupling Loss that aligns the image embedding with low-cost, value-associated anchors while preserving pixel-level fidelity. On E-ShopBench, PriceBlind achieves around 80% ASR in white-box evaluation; under a simplified single-turn coordinate-selection protocol, Ensemble-DI-FGSM transfers with roughly 35-41% ASR across GPT-4o, Gemini-1.5-Pro, and Claude-3.5-Sonnet. We also show that robust encoders and Verify-then-Act defenses reduce ASR substantially, though with some clean-accuracy trade-off.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急激な普及により、モバイルエージェントは高額の金融取引を行えるようになったが、その逆の堅牢性は未解明のままである。
視覚支配の幻覚 (VDH) を識別し, イメージベース, 価格制約のある設定でテキストによる価格証拠をオーバーライドし, エージェントを不合理な判断に導く。
そこで我々は,スクリーンショットベースの評価を行うためのステルスなホワイトボックス攻撃フレームワークであるPriceBlindを提案する。
PriceBlindは、CLIPベースのエンコーダのモダリティギャップをSemantic-Decoupling Lossを通じて活用する。
E-ShopBenchでは、PriceBlindはホワイトボックスの評価において約80%のASRを達成し、単一ターンの座標選択プロトコルの下で、GPT-4o、Gemini-1.5-Pro、Claude-3.5-Sonnetで約35-41%のASRでEnsemble-DI-FGSM転送を行う。
また、ロバストエンコーダとVerify-then-ActディフェンスがASRを大幅に削減することを示した。
関連論文リスト
- Byzantine-Robust and Differentially Private Federated Optimization under Weaker Assumptions [89.52532304099522]
フェデレートラーニング(FL)は、クライアントが生データを集中せずに共有モデルを共同でトレーニングすることを可能にし、固有のプライバシーレベルを提供する。
グラデーションとモデル更新は機密情報を漏洩する可能性があるが、悪意のあるサーバはビザンティン操作のような敵攻撃をマウントする可能性がある。
これらの脆弱性は、統合されたフレームワーク内の差分プライバシー(DP)とビザンチンの堅牢性に対処する必要性を強調している。
Byz-Clip21-SGD2Mを提案する。
論文 参考訳(メタデータ) (2026-03-24T17:39:09Z) - Robustness, Cost, and Attack-Surface Concentration in Phishing Detection [0.0]
設計されたウェブサイト上に構築されたフィッシング検出器は、i.d.評価の下でほぼ完璧な精度で機能する。
我々はこのギャップを、明示的な攻撃予算の下で個別の単調な特徴編集をモデル化するコスト認識回避フレームワークを通じて研究する。
論文 参考訳(メタデータ) (2026-03-19T17:53:32Z) - ForensicsSAM: Toward Robust and Unified Image Forgery Detection and Localization Resisting to Adversarial Attack [56.0056378072843]
高い転送性を持つ逆画像は上流モデルでのみ作成可能であることを示す。
本稿では,IFDLフレームワークを組み込んだForensicsSAMを提案する。
論文 参考訳(メタデータ) (2025-08-10T16:03:44Z) - Distraction is All You Need for Multimodal Large Language Model Jailbreaking [14.787247403225294]
マルチレベル・トラクション戦略によりMLLMのアライメントを阻害する手法として,CS-DJ(Contrasting Subimage Distraction Jailbreaking)を提案する。
CS-DJは平均成功率52.40%、アンサンブル攻撃成功率74.10%を達成している。
これらの結果から,MLLMの防御を活用・回避するための散逸に基づくアプローチの可能性を明らかにした。
論文 参考訳(メタデータ) (2025-02-15T13:25:12Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Assessing Robustness via Score-Based Adversarial Image Generation [42.97177781538178]
本稿では,Score-Based Adversarial Generation (ScoreAG)を導入し,非制限逆生成例を生成する。
ScoreAGは、画像のコアセマンティクスを維持しながら、既存のイメージや新しいイメージをスクラッチから完全に変換することで、敵の例を生成する。
我々の経験的評価は、ScoreAGが最先端の攻撃と防御の大半を改善していることを示している。
論文 参考訳(メタデータ) (2023-10-06T14:37:22Z) - Expressive Losses for Verified Robustness via Convex Combinations [67.54357965665676]
本研究では, 過近似係数と異なる表現的損失に対する性能分布の関係について検討した。
表現性が不可欠である一方で、最悪の場合の損失のより良い近似は、必ずしも優れた堅牢性-正確性トレードオフに結びついていないことを示す。
論文 参考訳(メタデータ) (2023-05-23T12:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。