論文の概要: Zero-Shot Retrieval for Scalable Visual Search in a Two-Sided Marketplace
- arxiv url: http://arxiv.org/abs/2508.05661v1
- Date: Thu, 31 Jul 2025 05:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.12749
- Title: Zero-Shot Retrieval for Scalable Visual Search in a Two-Sided Marketplace
- Title(参考訳): スケーラブルなビジュアル検索のためのZero-Shot Retrieval
- Authors: Andre Rusli, Shoma Ishimoto, Sho Akiyama, Aman Kumar Singh,
- Abstract要約: 本稿では,MercuriのC2Cマーケットプレースに展開するスケーラブルなビジュアルサーチシステムを提案する。
我々は、ゼロショット画像検索のための最近の視覚言語モデルを評価し、その性能を既存の微調整ベースラインと比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual search offers an intuitive way for customers to explore diverse product catalogs, particularly in consumer-to-consumer (C2C) marketplaces where listings are often unstructured and visually driven. This paper presents a scalable visual search system deployed in Mercari's C2C marketplace, where end-users act as buyers and sellers. We evaluate recent vision-language models for zero-shot image retrieval and compare their performance with an existing fine-tuned baseline. The system integrates real-time inference and background indexing workflows, supported by a unified embedding pipeline optimized through dimensionality reduction. Offline evaluation using user interaction logs shows that the multilingual SigLIP model outperforms other models across multiple retrieval metrics, achieving a 13.3% increase in nDCG@5 over the baseline. A one-week online A/B test in production further confirms real-world impact, with the treatment group showing substantial gains in engagement and conversion, up to a 40.9% increase in transaction rate via image search. Our findings highlight that recent zero-shot models can serve as a strong and practical baseline for production use, which enables teams to deploy effective visual search systems with minimal overhead, while retaining the flexibility to fine-tune based on future data or domain-specific needs.
- Abstract(参考訳): ビジュアル検索は、顧客がさまざまな製品カタログを探索する直感的な方法を提供する。
本稿では,MercuriのC2Cマーケットプレースに展開するスケーラブルなビジュアル検索システムについて述べる。
我々は、ゼロショット画像検索のための最近の視覚言語モデルを評価し、その性能を既存の微調整ベースラインと比較する。
このシステムはリアルタイム推論とバックグラウンドインデックスワークフローを統合し、次元の削減によって最適化された統合埋め込みパイプラインによってサポートされている。
ユーザインタラクションログを用いたオフライン評価では、多言語SigLIPモデルは複数の検索指標で他のモデルよりも優れており、ベースライン上で13.3%のnDCG@5が増加した。
1週間のオンラインA/Bテストでは、実際の影響をさらに確認し、その治療群はエンゲージメントと変換が大幅に増加し、画像検索によるトランザクションレートは40.9%増加した。
これにより、チームは、将来のデータやドメイン固有のニーズに基づいて、微調整の柔軟性を維持しながら、最小限のオーバーヘッドで効率的なビジュアル検索システムをデプロイできる。
関連論文リスト
- Semantic Ads Retrieval at Walmart eCommerce with Language Models Progressively Trained on Multiple Knowledge Domains [6.1008328784394]
Walmart.comの広告検索システムを最適化するために,エンド・ツー・エンドのソリューションを提案する。
当社のアプローチは,製品カテゴリ情報を用いたBERTライクな分類モデルを事前学習することである。
ベースラインDSSMベースのモデルと比較して,検索関連度を最大16%向上させる。
論文 参考訳(メタデータ) (2025-02-13T09:01:34Z) - Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models [51.067146460271466]
視覚生成モデルの評価には時間を要するし、計算コストもかかる。
本研究では,効率的,動的,多ラウンドな評価に人間的な戦略を用いる評価エージェントフレームワークを提案する。
1)効率性、2)多様なユーザニーズに合わせた迅速な評価、3)1つの数値スコア以上の説明可能性、4)さまざまなモデルやツールのスケーラビリティ。
論文 参考訳(メタデータ) (2024-12-10T18:52:39Z) - Exploiting Distribution Constraints for Scalable and Efficient Image Retrieval [1.6874375111244329]
最先端の画像検索システムは、データセットごとに特定のニューラルネットワークをトレーニングする。
オフザシェルフのファンデーションモデルは、データセット固有のモデルに匹敵するパフォーマンスを達成するには不足している。
本稿では,基本モデルの性能を著しく向上するAE-SVC(Strong Variance Constraints)を用いたオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-10-09T16:05:16Z) - Overview of the TREC 2023 Product Product Search Track [70.56592126043546]
今年はTREC製品サーチトラックの最初の年だ。
焦点は再利用可能なコレクションの作成であった。
我々は、コンテキストメタデータを含む新しい製品検索コーパスを活用している。
論文 参考訳(メタデータ) (2023-11-14T02:25:18Z) - Unified Embedding Based Personalized Retrieval in Etsy Search [0.206242362470764]
グラフ, 変換器, 項ベース埋め込みを終末に組み込んだ統合埋め込みモデルを学習することを提案する。
我々のパーソナライズされた検索モデルは、検索購入率5.58%、サイト全体のコンバージョン率2.63%によって、検索体験を著しく改善する。
論文 参考訳(メタデータ) (2023-06-07T23:24:50Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。