Fugu-MT 論文翻訳(概要): End-to-end multi-modal product matching in fashion e-commerce

論文の概要: End-to-end multi-modal product matching in fashion e-commerce

arxiv url: http://arxiv.org/abs/2403.11593v1
Date: Mon, 18 Mar 2024 09:12:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 15:57:28.188719
Title: End-to-end multi-modal product matching in fashion e-commerce
Title（参考訳）: ファッションeコマースにおけるエンドツーエンドのマルチモーダル製品マッチング
Authors: Sándor Tóth, Stephen Wilson, Alexia Tsoukara, Enric Moreu, Anton Masalovich, Lars Roemheld,
Abstract要約: 業界環境では,堅牢なマルチモーダル製品マッチングシステムを提案する。人間のループプロセスとモデルに基づく予測が組み合わさって、ほぼ完全な精度を達成できることを示す。
参考スコア（独自算出の注目度）: 0.6047429555885261
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Product matching, the task of identifying different representations of the same product for better discoverability, curation, and pricing, is a key capability for online marketplace and e-commerce companies. We present a robust multi-modal product matching system in an industry setting, where large datasets, data distribution shifts and unseen domains pose challenges. We compare different approaches and conclude that a relatively straightforward projection of pretrained image and text encoders, trained through contrastive learning, yields state-of-the-art results, while balancing cost and performance. Our solution outperforms single modality matching systems and large pretrained models, such as CLIP. Furthermore we show how a human-in-the-loop process can be combined with model-based predictions to achieve near perfect precision in a production system.
Abstract（参考訳）: 製品マッチングは、発見性、キュレーション、価格を向上するために同じ製品の異なる表現を識別するタスクであり、オンラインマーケットプレイスやeコマース企業にとって重要な機能である。業界環境では,大規模データセットやデータ分散シフト,目に見えないドメインが問題となるような,堅牢なマルチモーダル製品マッチングシステムを提案する。コントラスト学習によって訓練された、事前訓練された画像とテキストエンコーダの比較的簡単なプロジェクションは、コストとパフォーマンスのバランスを保ちながら、最先端の結果をもたらすと結論付けている。私たちのソリューションは,CLIPのような単一モードマッチングシステムや大規模事前学習モデルよりも優れています。さらに,本研究では,実運用システムにおいて,人間のループプロセスとモデルに基づく予測を組み合わせることで,ほぼ完全な精度を実現する方法を示す。

関連論文リスト

SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model [49.65930977591188]
マルチモーダル埋め込みモデルは、多様なクロスモーダルタスクに力を与える情報的統一表現を提供することを目的としている。 SAIL-Embeddingはオムニモーダルな埋め込み基盤モデルで、これらの問題に適切なトレーニング戦略とアーキテクチャ設計を通して対処する。具体的には、コンテンツ対応プログレッシブトレーニングは、さまざまな下流タスクへのモデルの適応性を高め、より豊かなクロスモーダル習熟度を習得することを目的としている。協調型レコメンデーション強化トレーニングは、シークエンス・ツー・テムとID・ツー・テムの埋め込みから知識を抽出することにより、レコメンデーションシナリオのマルチモーダル表現をさらに適応させる。
論文参考訳（メタデータ） (2025-10-14T16:43:22Z)
UniECS: Unified Multimodal E-Commerce Search Framework with Gated Cross-modal Fusion [20.13803245640432]
現在のeコマースマルチモーダル検索システムは2つの重要な制限に直面している。彼らは、固定されたモダリティペアリングで特定のタスクを最適化し、統一された検索アプローチを評価するための包括的なベンチマークを欠いている。画像,テキスト,およびそれらの組み合わせにわたるすべての検索シナリオを処理する統合マルチモーダルeコマース検索フレームワークであるUniECSを紹介する。
論文参考訳（メタデータ） (2025-08-19T14:06:13Z)
DashCLIP: Leveraging multimodal models for generating semantic embeddings for DoorDash [0.4288177321445912]
画像テキストデータに対するコントラスト学習を通じて,ユニモーダルエンコーダとマルチモーダルエンコーダを整列させることにより,製品およびユーザクエリのための共同トレーニングフレームワークを導入する。提案手法では,クエリエンコーダをLLM計算した関連データセットでトレーニングし,エンゲージメント履歴への依存を解消する。パーソナライズされた広告レコメンデーションでは、デプロイ後のクリックスルー率と変換レートが大きく上昇し、主要なビジネス指標への影響を確認します。
論文参考訳（メタデータ） (2025-03-18T20:38:31Z)
Semantic Ads Retrieval at Walmart eCommerce with Language Models Progressively Trained on Multiple Knowledge Domains [6.1008328784394]
Walmart.comの広告検索システムを最適化するために,エンド・ツー・エンドのソリューションを提案する。当社のアプローチは,製品カテゴリ情報を用いたBERTライクな分類モデルを事前学習することである。ベースラインDSSMベースのモデルと比較して,検索関連度を最大16%向上させる。
論文参考訳（メタデータ） (2025-02-13T09:01:34Z)
A Unified Knowledge-Distillation and Semi-Supervised Learning Framework to Improve Industrial Ads Delivery Systems [19.0143243243314]
産業広告ランキングシステムは従来、ラベル付きインプレッションデータに依存しており、過度な適合、モデルのスケーリングによる漸進的な増加、トレーニングとサービスデータの相違によるバイアスといった課題につながっている。広告ランク付けのための知識・蒸留・半教師付き学習(UK)のための統一フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-05T23:14:07Z)
A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文参考訳（メタデータ） (2024-11-20T20:38:56Z)
Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文参考訳（メタデータ） (2024-07-16T14:40:07Z)
Text-Based Product Matching -- Semi-Supervised Clustering Approach [9.748519919202986]
本稿では,半教師付きクラスタリング手法を用いた製品マッチングの新しい哲学を提案する。実世界のデータセット上でIDECアルゴリズムを実験することにより,本手法の特性について検討する。
論文参考訳（メタデータ） (2024-02-01T18:52:26Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
UniMatch: A Unified User-Item Matching Framework for the Multi-purpose Merchant Marketing [27.459774494479227]
1つのモデルでアイテムレコメンデーションとユーザターゲティングを同時に行うために,統合されたユーザイテムマッチングフレームワークを提案する。我々のフレームワークは、最先端の手法と比較して大幅に性能が向上し、計算資源や日々のメンテナンスにかかるコストが大幅に削減された。
論文参考訳（メタデータ） (2023-07-19T13:49:35Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
FedDM: Iterative Distribution Matching for Communication-Efficient Federated Learning [87.08902493524556]
フェデレートラーニング(FL)は近年、学術や産業から注目を集めている。我々は,複数の局所的代理関数からグローバルなトレーニング目標を構築するためのFedDMを提案する。そこで本研究では,各クライアントにデータ集合を構築し,元のデータから得られた損失景観を局所的にマッチングする。
論文参考訳（メタデータ） (2022-07-20T04:55:18Z)
Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文参考訳（メタデータ） (2022-06-17T15:40:45Z)
Multimodal Adversarially Learned Inference with Factorized Discriminators [10.818838437018682]
本稿では,生成逆ネットワークに基づくマルチモーダルデータの生成モデリングのための新しい手法を提案する。コヒーレントなマルチモーダル生成モデルを学習するためには、異なるエンコーダ分布とジョイントデコーダ分布を同時に整合させることが必要であることを示す。判別器を分解することで、対照的な学習を生かし、単調なデータに基づいてモデルを訓練する。
論文参考訳（メタデータ） (2021-12-20T08:18:49Z)
Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-modal Pretraining [108.86502855439774]
弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
論文参考訳（メタデータ） (2021-07-30T12:11:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。