論文の概要: Visual Product Graph: Bridging Visual Products And Composite Images For End-to-End Style Recommendations
- arxiv url: http://arxiv.org/abs/2505.21454v1
- Date: Tue, 27 May 2025 17:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.829282
- Title: Visual Product Graph: Bridging Visual Products And Composite Images For End-to-End Style Recommendations
- Title(参考訳): Visual Product Graph: エンド・ツー・エンドのレコメンデーションのためのビジュアルプロダクトと複合イメージのブリッジ
- Authors: Yue Li Du, Ben Alexander, Mikhail Antonenka, Rohan Mahadev, Hao-yu Wu, Dmitry Kislyuk,
- Abstract要約: Visual Product Graph (VPG)は、個々の製品からそれらの製品を含む複合シーンへのナビゲーションと補完的なレコメンデーションを可能にするオンラインリアルタイム検索システムである。
エンド・ツー・エンドの人間関係評価では78.8%が非常によく似た@1であり、モジュールのエンゲージメント率は6%である。
Visual Product Graph技術を活用した"Ways to Style It"モジュールは、Pinterestで本番環境にデプロイされている。
- 参考スコア(独自算出の注目度): 1.130790932059036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieving semantically similar but visually distinct contents has been a critical capability in visual search systems. In this work, we aim to tackle this problem with Visual Product Graph (VPG), leveraging high-performance infrastructure for storage and state-of-the-art computer vision models for image understanding. VPG is built to be an online real-time retrieval system that enables navigation from individual products to composite scenes containing those products, along with complementary recommendations. Our system not only offers contextual insights by showcasing how products can be styled in a context, but also provides recommendations for complementary products drawn from these inspirations. We discuss the essential components for building the Visual Product Graph, along with the core computer vision model improvements across object detection, foundational visual embeddings, and other visual signals. Our system achieves a 78.8% extremely similar@1 in end-to-end human relevance evaluations, and a 6% module engagement rate. The "Ways to Style It" module, powered by the Visual Product Graph technology, is deployed in production at Pinterest.
- Abstract(参考訳): 意味的に類似しているが視覚的に異なる内容を取得することは、視覚検索システムにおいて重要な機能である。
本研究では,ストレージに高性能なインフラストラクチャを活用し,画像理解に最先端のコンピュータビジョンモデルを活用する,ビジュアルプロダクトグラフ(VPG)によるこの問題に対処することを目的とする。
VPGは、個々の製品からそれらの製品を含む複合シーンへのナビゲーションと補完的なレコメンデーションを可能にするオンラインリアルタイム検索システムである。
私たちのシステムでは、コンテキスト内でどのように商品をスタイル化できるかを示すだけでなく、これらのインスピレーションから引き出された補完製品に対するレコメンデーションも提供しています。
我々は、オブジェクト検出、基礎的な視覚埋め込み、その他の視覚信号に対するコアコンピュータビジョンモデルの改善とともに、Visual Product Graphを構築する上で不可欠なコンポーネントについて論じる。
エンド・ツー・エンドの人間関係評価では78.8%が非常によく似た@1であり、モジュールのエンゲージメント率は6%である。
Visual Product Graph技術を活用した"Ways to Style It"モジュールは、Pinterestで本番環境にデプロイされている。
関連論文リスト
- Piece it Together: Part-Based Concepting with IP-Priors [52.01640707131325]
ユーザが提供するビジュアルコンポーネントの一部集合をシームレスにコヒーレントな構成に統合する生成フレームワークを導入する。
提案手法は,IP-Adapter+から抽出した,強力で過小評価された表現空間に基づいている。
また、与えられたタスクに対するIP-Adapter+のプロンプトアテンデンスを大幅に改善するLoRAベースの微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-03-13T13:46:10Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Efficient Large-Scale Visual Representation Learning And Evaluation [0.13192560874022083]
大規模なeコマースビジョンアプリケーションにおける課題を解説し、視覚表現を効果的に訓練し、評価し、提供する方法を強調する。
いくつかの下流タスクにおける視覚的表現を評価するアブレーション研究について述べる。
大規模なeコマースプラットフォーム上にデプロイされた機械学習システムの実運用におけるオンライン結果を含める。
論文 参考訳(メタデータ) (2023-05-22T18:25:03Z) - Unified Vision-Language Representation Modeling for E-Commerce
Same-Style Products Retrieval [12.588713044749177]
電子商取引プラットフォームでは,同種の商品検索が重要な役割を担っている。
電子商取引同型商品検索のための統合視覚言語モデリング手法を提案する。
クロスモーダルな製品間検索、スタイル転送、ユーザ対話型検索が可能である。
論文 参考訳(メタデータ) (2023-02-10T07:24:23Z) - ItemSage: Learning Product Embeddings for Shopping Recommendations at
Pinterest [60.841761065439414]
Pinterestでは、ItemSageと呼ばれるプロダクトの埋め込みセットを構築して、すべてのショッピングユースケースに適切なレコメンデーションを提供しています。
このアプローチによって、エンゲージメントとコンバージョンメトリクスが大幅に改善され、インフラストラクチャとメンテナンスコストの両方が削減された。
論文 参考訳(メタデータ) (2022-05-24T02:28:58Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Comprehensive Information Integration Modeling Framework for Video
Titling [124.11296128308396]
エンド・ツー・エンド・エンド・モデリング・フレームワークにおいて、消費者生成ビデオの内容、消費者から提供される物語コメント文、製品属性などの包括的情報ソースを統合する。
この問題に対処するため,提案手法は,粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスから構成される。
グローバルなeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集します。
論文 参考訳(メタデータ) (2020-06-24T10:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。