論文の概要: Improving Visual Recommendation on E-commerce Platforms Using Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.13359v1
- Date: Wed, 15 Oct 2025 09:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.605518
- Title: Improving Visual Recommendation on E-commerce Platforms Using Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルを用いたEコマースプラットフォームにおけるビジュアルレコメンデーションの改善
- Authors: Yuki Yada, Sho Akiyama, Ryo Watanabe, Yuta Ueno, Yusuke Shido, Andre Rusli,
- Abstract要約: 本研究では,日本の主要消費者市場であるMercuriの製品レコメンデーションに視覚言語モデル(VLM)を適用した。
我々は,シグモイドに基づくコントラスト損失を用いたVLMであるSigLIPを微調整し,レコメンデーションシステムで使用されるアイテム埋め込みを生成する画像エンコーダを開発した。
- 参考スコア(独自算出の注目度): 0.16419687521433918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On large-scale e-commerce platforms with tens of millions of active monthly users, recommending visually similar products is essential for enabling users to efficiently discover items that align with their preferences. This study presents the application of a vision-language model (VLM) -- which has demonstrated strong performance in image recognition and image-text retrieval tasks -- to product recommendations on Mercari, a major consumer-to-consumer marketplace used by more than 20 million monthly users in Japan. Specifically, we fine-tuned SigLIP, a VLM employing a sigmoid-based contrastive loss, using one million product image-title pairs from Mercari collected over a three-month period, and developed an image encoder for generating item embeddings used in the recommendation system. Our evaluation comprised an offline analysis of historical interaction logs and an online A/B test in a production environment. In offline analysis, the model achieved a 9.1% improvement in nDCG@5 compared with the baseline. In the online A/B test, the click-through rate improved by 50% whereas the conversion rate improved by 14% compared with the existing model. These results demonstrate the effectiveness of VLM-based encoders for e-commerce product recommendations and provide practical insights into the development of visual similarity-based recommendation systems.
- Abstract(参考訳): 何千万人ものアクティブユーザーがいる大規模なeコマースプラットフォームでは、視覚的に類似した製品を推奨することは、ユーザーが自分の好みに沿ったアイテムを効率的に発見できるようにするために不可欠である。
本研究は,視覚言語モデル(VLM)による画像認識と画像テキスト検索タスクの性能向上を実証し,日本における2000万人以上の月次利用者が利用する大手消費者市場であるMercurariの製品レコメンデーションに適用した。
具体的には、SigLIP(Sigmoid-based contrastive loss, VLM)を3ヶ月にわたって収集したMercuriの100万の製品イメージタイトルペアを用いて微調整し、レコメンデーションシステムで使用されるアイテム埋め込みを生成する画像エンコーダを開発した。
実運用環境でのインタラクションログのオフライン分析とオンラインA/Bテストを行った。
オフライン分析では、ベースラインと比較して、nDCG@5は9.1%改善した。
オンラインA/Bテストでは、クリックスルー率が50%向上し、コンバージョンレートが14%向上した。
これらの結果は、電子商取引商品レコメンデーションにおけるVLMエンコーダの有効性を示し、視覚的類似性に基づくレコメンデーションシステムの開発に関する実践的な洞察を提供する。
関連論文リスト
- Zero-Shot Retrieval for Scalable Visual Search in a Two-Sided Marketplace [0.0]
本稿では,MercuriのC2Cマーケットプレースに展開するスケーラブルなビジュアルサーチシステムを提案する。
我々は、ゼロショット画像検索のための最近の視覚言語モデルを評価し、その性能を既存の微調整ベースラインと比較する。
論文 参考訳(メタデータ) (2025-07-31T05:13:20Z) - LLM-Enhanced Reranking for Complementary Product Recommendation [1.7149913637404794]
本稿では,Large Language Models (LLMs) を利用したモデルに依存しないアプローチを提案する。
当社のアプローチは、補完的な製品レコメンデーションにおける正確性と多様性のバランスを効果的に保ち、少なくとも50%の精度測定値、2%の多様性測定値がデータセット全体を対象とした推奨項目の平均で上昇していることを実証しています。
論文 参考訳(メタデータ) (2025-07-22T05:15:45Z) - Research on E-Commerce Long-Tail Product Recommendation Mechanism Based on Large-Scale Language Models [7.792622257477251]
大規模言語モデル(LLM)を用いた製品記述とユーザ行動シーケンスを統合した,新しいロングテール製品レコメンデーション機構を提案する。
我々の研究は、今後のeコマースレコメンデーションシステムにおいて、製品コンテンツとユーザ意図を解釈するLLMの可能性を強調します。
論文 参考訳(メタデータ) (2025-05-31T19:17:48Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - CTR-Driven Advertising Image Generation with Multimodal Large Language Models [53.40005544344148]
本稿では,Click-Through Rate (CTR) を主目的とし,マルチモーダル大言語モデル(MLLM)を用いた広告画像の生成について検討する。
生成した画像のCTRをさらに改善するため、強化学習(RL)を通して事前学習したMLLMを微調整する新たな報酬モデルを提案する。
本手法は,オンラインとオフラインの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-02-05T09:06:02Z) - MIND: Multimodal Shopping Intention Distillation from Large Vision-language Models for E-commerce Purchase Understanding [67.26334044239161]
MINDは、マルチモーダル製品メタデータから購入意図を推測し、人間中心のものを優先するフレームワークである。
Amazon Reviewのデータを使用して、1,264,441万の意図を含むマルチモーダルな意図的知識ベースを作成します。
得られた意図は2つの意図的理解タスクにおいて大きな言語モデルを大幅に向上させる。
論文 参考訳(メタデータ) (2024-06-15T17:56:09Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - ItemSage: Learning Product Embeddings for Shopping Recommendations at
Pinterest [60.841761065439414]
Pinterestでは、ItemSageと呼ばれるプロダクトの埋め込みセットを構築して、すべてのショッピングユースケースに適切なレコメンデーションを提供しています。
このアプローチによって、エンゲージメントとコンバージョンメトリクスが大幅に改善され、インフラストラクチャとメンテナンスコストの両方が削減された。
論文 参考訳(メタデータ) (2022-05-24T02:28:58Z) - Personalized Embedding-based e-Commerce Recommendations at eBay [3.1236273633321416]
電子商取引市場において,同じベクトル空間にアイテムやユーザを埋め込むことで,パーソナライズされたアイテムレコメンデーションを生成するアプローチを提案する。
データアブレーションは、生産システムの堅牢性を改善するために、オフラインモデルのトレーニングプロセスに組み込まれます。
論文 参考訳(メタデータ) (2021-02-11T17:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。