論文の概要: Factorized Transport Alignment for Multimodal and Multiview E-commerce Representation Learning
- arxiv url: http://arxiv.org/abs/2512.18117v1
- Date: Fri, 19 Dec 2025 22:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.19243
- Title: Factorized Transport Alignment for Multimodal and Multiview E-commerce Representation Learning
- Title(参考訳): マルチモーダル・マルチビューEコマース表現学習のための因子的輸送アライメント
- Authors: Xiwen Chen, Yen-Chieh Lien, Susan Liu, María Castaños, Abolfazl Razi, Xiaoting Zhao, Congzhe Su,
- Abstract要約: 本稿では,Factized Transport 埋め込みによるマルチモーダル学習とマルチビュー学習を統合化するためのフレームワークを提案する。
トレーニング中は、補助的なビューをサンプリングしながらプライマリビューを強調し、各アイテムのビュー数を2倍から一定に削減する。
- 参考スコア(独自算出の注目度): 7.390207354371506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of e-commerce requires robust multimodal representations that capture diverse signals from user-generated listings. Existing vision-language models (VLMs) typically align titles with primary images, i.e., single-view, but overlook non-primary images and auxiliary textual views that provide critical semantics in open marketplaces such as Etsy or Poshmark. To this end, we propose a framework that unifies multimodal and multi-view learning through Factorized Transport, a lightweight approximation of optimal transport, designed for scalability and deployment efficiency. During training, the method emphasizes primary views while stochastically sampling auxiliary ones, reducing training cost from quadratic in the number of views to constant per item. At inference, all views are fused into a single cached embedding, preserving the efficiency of two-tower retrieval with no additional online overhead. On an industrial dataset of 1M product listings and 0.3M interactions, our approach delivers consistent improvements in cross-view and query-to-item retrieval, achieving up to +7.9% Recall@500 over strong multimodal baselines. Overall, our framework bridges scalability with optimal transport-based learning, making multi-view pretraining practical for large-scale e-commerce search.
- Abstract(参考訳): 電子商取引の急速な成長は、ユーザ生成のリスティングから多様な信号をキャプチャする堅牢なマルチモーダル表現を必要とする。
既存の視覚言語モデル(VLM)は、通常、タイトルを一次イメージ、すなわちシングルビューと整列するが、EtsyやPoshmarkのようなオープンマーケットプレースで重要な意味を提供する非一次イメージや補助的なテキストビューを見落としている。
そこで本稿では,スケーラビリティとデプロイメントの効率化を目的とした,最適輸送の軽量近似であるFactized Transportを通じて,マルチモーダル・マルチビュー学習を統一するフレームワークを提案する。
トレーニング中は、補助的なビューを統計的にサンプリングしながら一次ビューを強調し、各アイテムのビュー数を2倍から一定に削減する。
推論では、すべてのビューは単一のキャッシュされた埋め込みに融合され、追加のオンラインオーバーヘッドなしで2tower検索の効率が保たれる。
100万の製品リストと0.3万のインタラクションの産業データセットに基づいて、当社のアプローチは、クロスビューとクエリ・ツー・イテム検索において一貫した改善を提供し、強力なマルチモーダルベースラインに対して、+7.9%のRecall@500を達成する。
全体として、当社のフレームワークはスケーラビリティと最適なトランスポートベース学習を橋渡しし、大規模eコマース検索のマルチビュー事前学習を実践する。
関連論文リスト
- Turning Adversaries into Allies: Reversing Typographic Attacks for Multimodal E-Commerce Product Retrieval [2.0134842677651084]
電子商取引プラットフォームのマルチモーダル製品検索システムは、検索関連性とユーザエクスペリエンスを改善するために、視覚信号とテキスト信号を効果的に組み合わせることに頼っている。
本稿では,関連するテキストコンテンツを製品イメージに直接レンダリングすることで,タイポグラフィー攻撃の論理を逆転させる手法を提案する。
6つの最先端ビジョン基盤モデルを用いて,3つの縦型eコマースデータセット(ニーカー,ハンドバッグ,トレーディングカード)について評価を行った。
論文 参考訳(メタデータ) (2025-11-07T15:24:18Z) - OmniSegmentor: A Flexible Multi-Modal Learning Framework for Semantic Segmentation [74.55725909072903]
我々はOmniSegmentorと呼ばれる新しいマルチモーダル学習フレームワークを提案する。
ImageNetに基づいて、ImageNeXtと呼ばれるマルチモーダル事前学習のための大規模なデータセットを組み立てる。
様々なシナリオにまたがってモデルの知覚能力を一貫して増幅する、普遍的なマルチモーダル事前学習フレームワークを導入する。
論文 参考訳(メタデータ) (2025-09-18T15:52:44Z) - TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文 参考訳(メタデータ) (2025-09-18T07:00:13Z) - VL-CLIP: Enhancing Multimodal Recommendations via Visual Grounding and LLM-Augmented CLIP Embeddings [11.209519424876762]
マルチモーダル学習は今日,eコマースレコメンデーションプラットフォームにおいて重要な役割を担っている。
CLIPのような既存のビジョン言語モデルは、eコマースレコメンデーションシステムにおいて重要な課題に直面している。
視覚的理解のきめ細かな理解のためにVisual Groundingを統合することにより,CLIPの埋め込みを強化するフレームワークであるVL-CLIPを提案する。
論文 参考訳(メタデータ) (2025-07-22T23:45:43Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - CommerceMM: Large-Scale Commerce MultiModal Representation Learning with
Omni Retrieval [30.607369837039904]
CommerceMMは、コンテンツに関連するコマーストピックを多種多様な粒度の理解を提供するマルチモーダルモデルである。
我々は、Omni-Retrieval pre-trainingと呼ばれる9つの新しいクロスモーダル・クロスペア検索タスクを提案する。
本モデルでは,微調整後,7つの商取引関連下流タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-02-15T08:23:59Z) - Product1M: Towards Weakly Supervised Instance-Level Product Retrieval
via Cross-modal Pretraining [108.86502855439774]
弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。
実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。
ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T12:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。