論文の概要: UniECS: Unified Multimodal E-Commerce Search Framework with Gated Cross-modal Fusion
- arxiv url: http://arxiv.org/abs/2508.13843v1
- Date: Tue, 19 Aug 2025 14:06:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.946332
- Title: UniECS: Unified Multimodal E-Commerce Search Framework with Gated Cross-modal Fusion
- Title(参考訳): UniECS: Gated Cross-modal Fusionによる統合マルチモーダルEコマース検索フレームワーク
- Authors: Zihan Liang, Yufei Ma, ZhiPeng Qian, Huangyu Dai, Zihan Wang, Ben Chen, Chenyi Lei, Yuqing Ding, Han Li,
- Abstract要約: 現在のeコマースマルチモーダル検索システムは2つの重要な制限に直面している。
彼らは、固定されたモダリティペアリングで特定のタスクを最適化し、統一された検索アプローチを評価するための包括的なベンチマークを欠いている。
画像,テキスト,およびそれらの組み合わせにわたるすべての検索シナリオを処理する統合マルチモーダルeコマース検索フレームワークであるUniECSを紹介する。
- 参考スコア(独自算出の注目度): 20.13803245640432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current e-commerce multimodal retrieval systems face two key limitations: they optimize for specific tasks with fixed modality pairings, and lack comprehensive benchmarks for evaluating unified retrieval approaches. To address these challenges, we introduce UniECS, a unified multimodal e-commerce search framework that handles all retrieval scenarios across image, text, and their combinations. Our work makes three key contributions. First, we propose a flexible architecture with a novel gated multimodal encoder that uses adaptive fusion mechanisms. This encoder integrates different modality representations while handling missing modalities. Second, we develop a comprehensive training strategy to optimize learning. It combines cross-modal alignment loss (CMAL), cohesive local alignment loss (CLAL), intra-modal contrastive loss (IMCL), and adaptive loss weighting. Third, we create M-BEER, a carefully curated multimodal benchmark containing 50K product pairs for e-commerce search evaluation. Extensive experiments demonstrate that UniECS consistently outperforms existing methods across four e-commerce benchmarks with fine-tuning or zero-shot evaluation. On our M-BEER bench, UniECS achieves substantial improvements in cross-modal tasks (up to 28\% gain in R@10 for text-to-image retrieval) while maintaining parameter efficiency (0.2B parameters) compared to larger models like GME-Qwen2VL (2B) and MM-Embed (8B). Furthermore, we deploy UniECS in the e-commerce search platform of Kuaishou Inc. across two search scenarios, achieving notable improvements in Click-Through Rate (+2.74\%) and Revenue (+8.33\%). The comprehensive evaluation demonstrates the effectiveness of our approach in both experimental and real-world settings. Corresponding codes, models and datasets will be made publicly available at https://github.com/qzp2018/UniECS.
- Abstract(参考訳): 現在のeコマースマルチモーダル検索システムは、固定されたモダリティペアリングによる特定のタスクの最適化と、統一された検索アプローチを評価するための包括的なベンチマークの欠如という、2つの重要な制限に直面している。
これらの課題に対処するために、画像、テキスト、およびそれらの組み合わせにわたる全ての検索シナリオを処理する統合マルチモーダルeコマース検索フレームワークであるUniECSを紹介する。
私たちの仕事は3つの重要な貢献をします。
まず,適応型融合機構を用いた新しいゲート型マルチモーダルエンコーダを用いたフレキシブルアーキテクチャを提案する。
このエンコーダは、欠落したモダリティを処理しながら異なるモダリティ表現を統合する。
第2に,学習を最適化するための総合的な学習戦略を開発する。
クロスモーダルアライメント・ロス(CMAL)、コヒーシブローカルアライメント・ロス(CLAL)、イントラモーダルコントラスト・ロス(IMCL)、アダプティブ・アライメント・重み付けを併用する。
第3に、電子商取引検索評価のための50K製品ペアを含む慎重にキュレートされたマルチモーダルベンチマークであるM-BEERを作成する。
大規模な実験により、UniECSは4つのeコマースベンチマークにおいて、微調整やゼロショット評価で既存の手法を一貫して上回っていることが示されている。
M-BEER ベンチでは,GME-Qwen2VL (2B) やMM-Embed (8B) といった大規模モデルと比較して,パラメータ効率 (0.2B パラメータ) を保ちながら,クロスモーダルタスクの大幅な改善を実現している。
さらに、クアイショーのeコマース検索プラットフォームにUniECSを2つの検索シナリオに展開し、クリックスルーレート(+2.74\%)と収益(+8.33\%)の顕著な改善を実現した。
本評価は,実験と実環境の両方において,本手法の有効性を実証するものである。
対応するコード、モデル、データセットはhttps://github.com/qzp2018/UniECSで公開される。
関連論文リスト
- CROSSAN: Towards Efficient and Effective Adaptation of Multiple Multimodal Foundation Models for Sequential Recommendation [6.013740443562439]
MFM(Multimodal Foundation Models)は、様々な生のモダリティを表現できる。
シーケンシャルレコメンデーションにおけるMFMの応用は、まだほとんど解明されていない。
シーケンシャルレコメンデーションタスクに複数の (>2) MFM を効率的に適用できるかどうかは不明だ。
プラグアンドプレイ型クロスモーダルサイドアダプタネットワーク(CROSSAN)を提案する。
論文 参考訳(メタデータ) (2025-04-14T15:14:59Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - MRSE: An Efficient Multi-modality Retrieval System for Large Scale E-commerce [42.3177388371158]
現在の埋め込みベースのRetrieval Systemsは、クエリとアイテムを共有の低次元空間に埋め込む。
本稿では,テキスト,項目画像,ユーザ嗜好を統合したマルチモーダル検索システムMRSEを提案する。
MRSEはオフラインの妥当性が18.9%向上し、オンラインのコアメトリクスが3.7%向上した。
論文 参考訳(メタデータ) (2024-08-27T11:21:19Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Learning Similarity Preserving Binary Codes for Recommender Systems [5.799838997511804]
我々は、ハッシュベースのレコメンデータシステム、すなわち、コンパクトクロスシミラリティレコメンダ(CCSR)のための未探索モジュールの組み合わせについて研究する。
クロスモーダル検索にインスパイアされたCCSRは、行列分解や評価再構成の代わりにPosteriori類似性を利用して、ユーザとアイテム間のインタラクションをモデル化する。
MovieLens1Mデータセットでは、絶対的なパフォーマンス改善はNDCGが15.69%、リコールが4.29%である。
論文 参考訳(メタデータ) (2022-04-18T21:33:59Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。