論文の概要: Beyond Text: Aligning Vision and Language for Multimodal E-Commerce Retrieval
- arxiv url: http://arxiv.org/abs/2603.04836v1
- Date: Thu, 05 Mar 2026 05:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.090452
- Title: Beyond Text: Aligning Vision and Language for Multimodal E-Commerce Retrieval
- Title(参考訳): テキストを超えて:マルチモーダルなEコマース検索のためのビジョンと言語
- Authors: Qujiaheng Zhang, Guagnyue Xu, Fengjie Li,
- Abstract要約: 電子商取引領域における2tower検索モデルの統一テキスト画像融合について検討する。
ドメイン固有の微調整と製品テキストとのクエリと画像のモダリティの2段階のアライメントが、効果的なマルチモーダル検索に不可欠であることを示す。
本稿では、画像とテキスト情報を融合し、モーダル間補完情報をキャプチャするための、ノーバルなモダリティ融合ネットワークを提案する。
- 参考スコア(独自算出の注目度): 0.669087470775851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern e-commerce search is inherently multimodal: customers make purchase decisions by jointly considering product text and visual informations. However, most industrial retrieval and ranking systems primarily rely on textual information, underutilizing the rich visual signals available in product images. In this work, we study unified text-image fusion for two-tower retrieval models in the e-commerce domain. We demonstrate that domain-specific fine-tuning and two stage alignment between query with product text and image modalities are both crucial for effective multimodal retrieval. Building on these insights, we propose a noval modality fusion network to fuse image and text information and capture cross-modal complementary information. Experiments on large-scale e-commerce datasets validate the effectiveness of the proposed approach.
- Abstract(参考訳): 現在のeコマース検索は本質的にマルチモーダルであり、顧客は製品テキストと視覚情報を共同で検討することで購入決定を行う。
しかし、ほとんどの産業検索とランキングシステムは、主にテキスト情報に依存しており、製品画像で利用可能なリッチな視覚信号の活用を欠いている。
本研究では,電子商取引領域における2tower検索モデルに対する統一テキスト画像融合について検討する。
ドメイン固有の微調整と製品テキストとのクエリと画像のモダリティの2段階のアライメントが、効果的なマルチモーダル検索に不可欠であることを示す。
これらの知見に基づいて、画像とテキスト情報を融合し、モーダルな相補的な情報をキャプチャするための、ノーバルなモダリティ融合ネットワークを提案する。
大規模eコマースデータセットの実験により,提案手法の有効性が検証された。
関連論文リスト
- Turning Adversaries into Allies: Reversing Typographic Attacks for Multimodal E-Commerce Product Retrieval [2.0134842677651084]
電子商取引プラットフォームのマルチモーダル製品検索システムは、検索関連性とユーザエクスペリエンスを改善するために、視覚信号とテキスト信号を効果的に組み合わせることに頼っている。
本稿では,関連するテキストコンテンツを製品イメージに直接レンダリングすることで,タイポグラフィー攻撃の論理を逆転させる手法を提案する。
6つの最先端ビジョン基盤モデルを用いて,3つの縦型eコマースデータセット(ニーカー,ハンドバッグ,トレーディングカード)について評価を行った。
論文 参考訳(メタデータ) (2025-11-07T15:24:18Z) - Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - Multimodal semantic retrieval for product search [6.185573921868495]
商品の純粋テキスト表現とは対照的に,eコマース検索における商品項目のマルチモーダル表現を構築した。
商品のマルチモーダル表現スキームは,セマンティック検索における購入リコールや関連精度の向上を示すことができることを示す。
論文 参考訳(メタデータ) (2025-01-13T14:34:26Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。
具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。
次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching [65.87255122130188]
画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。
また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。
提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
論文 参考訳(メタデータ) (2024-02-27T06:11:54Z) - EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。
EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文 参考訳(メタデータ) (2023-05-23T02:59:19Z) - Unified Vision-Language Representation Modeling for E-Commerce
Same-Style Products Retrieval [12.588713044749177]
電子商取引プラットフォームでは,同種の商品検索が重要な役割を担っている。
電子商取引同型商品検索のための統合視覚言語モデリング手法を提案する。
クロスモーダルな製品間検索、スタイル転送、ユーザ対話型検索が可能である。
論文 参考訳(メタデータ) (2023-02-10T07:24:23Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - ACE-BERT: Adversarial Cross-modal Enhanced BERT for E-commerce Retrieval [6.274310862007448]
本稿では,効率的なEコマース検索のための新しいアドリラルクロスモーダル拡張BERT(ACE-BERT)を提案する。
事前訓練された拡張BERTをバックボーンネットワークとして、ACE-BERTは異なるモダリティ表現の分布一貫性を確保するために、逆学習を採用する。
実験の結果,ACE-BERTは検索作業における最先端のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2021-12-14T07:36:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。