論文の概要: Multimodal Generative Engine Optimization: Rank Manipulation for Vision-Language Model Rankers
- arxiv url: http://arxiv.org/abs/2601.12263v1
- Date: Sun, 18 Jan 2026 04:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.537995
- Title: Multimodal Generative Engine Optimization: Rank Manipulation for Vision-Language Model Rankers
- Title(参考訳): マルチモーダル生成エンジン最適化:ビジョンランゲージモデルランカのランク操作
- Authors: Yixuan Du, Chenxiao Yu, Haoyan Xu, Ziyi Wang, Yue Zhao, Xiyang Hu,
- Abstract要約: 視覚言語モデル(VLM)は、現代の検索とレコメンデーションシステムにおいて、ユニモーダルエンコーダを急速に置き換えている。
本稿では、悪意あるアクターがターゲット商品を不当に宣伝することを可能にする、新たな敵対的枠組みを提案する。
最先端モデルを用いた実世界のデータセット実験により、コーディネート攻撃はテキストのみと画像のみのベースラインを著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 9.543953966473076
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language Models (VLMs) are rapidly replacing unimodal encoders in modern retrieval and recommendation systems. While their capabilities are well-documented, their robustness against adversarial manipulation in competitive ranking scenarios remains largely unexplored. In this paper, we uncover a critical vulnerability in VLM-based product search: multimodal ranking attacks. We present Multimodal Generative Engine Optimization (MGEO), a novel adversarial framework that enables a malicious actor to unfairly promote a target product by jointly optimizing imperceptible image perturbations and fluent textual suffixes. Unlike existing attacks that treat modalities in isolation, MGEO employs an alternating gradient-based optimization strategy to exploit the deep cross-modal coupling within the VLM. Extensive experiments on real-world datasets using state-of-the-art models demonstrate that our coordinated attack significantly outperforms text-only and image-only baselines. These findings reveal that multimodal synergy, typically a strength of VLMs, can be weaponized to compromise the integrity of search rankings without triggering conventional content filters.
- Abstract(参考訳): 視覚言語モデル(VLM)は、現代の検索とレコメンデーションシステムにおいて、ユニモーダルエンコーダを急速に置き換えている。
それらの能力は十分に文書化されているが、競合するランキングシナリオにおける敵の操作に対する堅牢性は、まだ明らかにされていない。
本稿では,VLMに基づく製品検索における重大な脆弱性を明らかにする。
MGEO(Multimodal Generative Engine Optimization、マルチモーダル生成エンジン最適化)は、悪質なアクターが不当にターゲット商品をプロモートするための新しいフレームワークである。
単独でモダリティを扱う既存の攻撃とは異なり、MGEOはVLM内の深いクロスモーダル結合を利用するために、交互に勾配に基づく最適化戦略を採用している。
最先端モデルを用いた実世界のデータセットに対する大規模な実験により、我々のコーディネート攻撃はテキストのみのベースラインと画像のみのベースラインを著しく上回ることを示した。
これらの結果から,VLMの強みであるマルチモーダル・シナジーは,従来のコンテントフィルタをトリガーすることなく,検索ランクの整合性を損なうことができることがわかった。
関連論文リスト
- AIVD: Adaptive Edge-Cloud Collaboration for Accurate and Efficient Industrial Visual Detection [15.419663374345845]
本稿では,高精度な局所化と高品質なセマンティック生成を実現するためのAIVDフレームワークを提案する。
エッジトリミングボックスノイズとシナリオ変動に対するクラウドMLLMのロバスト性を高めるため,我々は効率的な微調整戦略を設計する。
異種エッジデバイスと動的ネットワーク条件間の高いスループットと低レイテンシを維持するため,異種リソースを考慮した動的スケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-08T08:56:07Z) - OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。
我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文 参考訳(メタデータ) (2025-09-03T17:29:50Z) - Proxy-Embedding as an Adversarial Teacher: An Embedding-Guided Bidirectional Attack for Referring Expression Segmentation Models [7.064823891326925]
Referring Expression (RES)は、自然言語記述に基づく画像の正確なオブジェクトセグメンテーションを可能にする。
その印象的な性能にもかかわらず、RESモデルの敵の例に対する堅牢性はほとんど解明されていない。
本稿では RES モデルに対する埋め込み誘導双方向攻撃 PEAT を提案する。
論文 参考訳(メタデータ) (2025-06-19T09:14:04Z) - CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model [9.224965304457708]
本稿では,新しいマルチモーダル検索フレームワークであるMLLM (CUE-M) について述べる。
画像コンテキストの強化、インテントの洗練、コンテキストクエリ生成、外部APIの統合、関連ベースのフィルタリングなどが含まれている。
知識に基づくVQAと安全性に関する実単語データセットと公開ベンチマークの実験は、CUE-Mがベースラインを上回り、新しい最先端の結果を確立することを示した。
論文 参考訳(メタデータ) (2024-11-19T07:16:48Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。