論文の概要: Turning Adversaries into Allies: Reversing Typographic Attacks for Multimodal E-Commerce Product Retrieval
- arxiv url: http://arxiv.org/abs/2511.05325v1
- Date: Fri, 07 Nov 2025 15:24:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.813435
- Title: Turning Adversaries into Allies: Reversing Typographic Attacks for Multimodal E-Commerce Product Retrieval
- Title(参考訳): 敵を同盟国に変える:マルチモーダルなEコマース商品検索のためのタイポグラフィー攻撃を逆転させる
- Authors: Janet Jenq, Hongda Shen,
- Abstract要約: 電子商取引プラットフォームのマルチモーダル製品検索システムは、検索関連性とユーザエクスペリエンスを改善するために、視覚信号とテキスト信号を効果的に組み合わせることに頼っている。
本稿では,関連するテキストコンテンツを製品イメージに直接レンダリングすることで,タイポグラフィー攻撃の論理を逆転させる手法を提案する。
6つの最先端ビジョン基盤モデルを用いて,3つの縦型eコマースデータセット(ニーカー,ハンドバッグ,トレーディングカード)について評価を行った。
- 参考スコア(独自算出の注目度): 2.0134842677651084
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal product retrieval systems in e-commerce platforms rely on effectively combining visual and textual signals to improve search relevance and user experience. However, vision-language models such as CLIP are vulnerable to typographic attacks, where misleading or irrelevant text embedded in images skews model predictions. In this work, we propose a novel method that reverses the logic of typographic attacks by rendering relevant textual content (e.g., titles, descriptions) directly onto product images to perform vision-text compression, thereby strengthening image-text alignment and boosting multimodal product retrieval performance. We evaluate our method on three vertical-specific e-commerce datasets (sneakers, handbags, and trading cards) using six state-of-the-art vision foundation models. Our experiments demonstrate consistent improvements in unimodal and multimodal retrieval accuracy across categories and model families. Our findings suggest that visually rendering product metadata is a simple yet effective enhancement for zero-shot multimodal retrieval in e-commerce applications.
- Abstract(参考訳): 電子商取引プラットフォームのマルチモーダル製品検索システムは、検索関連性とユーザエクスペリエンスを改善するために、視覚信号とテキスト信号を効果的に組み合わせることに頼っている。
しかし、CLIPのような視覚言語モデルは、画像に埋め込まれた誤解を招く、あるいは無関係なテキストがモデル予測を歪めるような、タイポグラフィー攻撃に対して脆弱である。
そこで本研究では,関連するテキストコンテンツ(タイトル,記述など)を直接製品イメージにレンダリングして,視覚テキスト圧縮を行い,画像テキストのアライメントを強化し,マルチモーダル製品検索性能を向上させることによって,タイポグラフィー攻撃の論理を逆転させる手法を提案する。
6つの最先端ビジョン基盤モデルを用いて,3つの縦型eコマースデータセット(ニーカー,ハンドバッグ,トレーディングカード)について評価を行った。
本実験は, カテゴリーとモデルファミリ間の一様・多モーダル検索精度を一貫した改善したことを示す。
製品メタデータを視覚的にレンダリングすることは、電子商取引アプリケーションにおけるゼロショットマルチモーダル検索の簡易かつ効果的な拡張であることを示す。
関連論文リスト
- Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - A Multimodal In-Context Tuning Approach for E-Commerce Product
Description Generation [47.70824723223262]
マーケティングキーワードを付加した画像から製品記述を生成するための新しい設定を提案する。
本稿では, ModICT という, シンプルで効果的なマルチモーダル・インコンテキスト・チューニング手法を提案する。
実験の結果、ModICTは従来の方法と比較して精度(ルージュ-Lでは最大3.3%)と多様性(D-5では最大9.4%)を著しく改善することが示された。
論文 参考訳(メタデータ) (2024-02-21T07:38:29Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Efficient Large-Scale Visual Representation Learning And Evaluation [0.13192560874022083]
大規模なeコマースビジョンアプリケーションにおける課題を解説し、視覚表現を効果的に訓練し、評価し、提供する方法を強調する。
いくつかの下流タスクにおける視覚的表現を評価するアブレーション研究について述べる。
大規模なeコマースプラットフォーム上にデプロイされた機械学習システムの実運用におけるオンライン結果を含める。
論文 参考訳(メタデータ) (2023-05-22T18:25:03Z) - Unified Vision-Language Representation Modeling for E-Commerce
Same-Style Products Retrieval [12.588713044749177]
電子商取引プラットフォームでは,同種の商品検索が重要な役割を担っている。
電子商取引同型商品検索のための統合視覚言語モデリング手法を提案する。
クロスモーダルな製品間検索、スタイル転送、ユーザ対話型検索が可能である。
論文 参考訳(メタデータ) (2023-02-10T07:24:23Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - e-CLIP: Large-Scale Vision-Language Representation Learning in
E-commerce [9.46186546774799]
本研究では,未ラベルの製品テキストや画像を用いて,言語モデルと視覚モデルとを整合させるコントラスト学習フレームワークを提案する。
我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提示する。
論文 参考訳(メタデータ) (2022-07-01T05:16:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。