論文の概要: Spatiotemporal Graph Guided Multi-modal Network for Livestreaming Product Retrieval
- arxiv url: http://arxiv.org/abs/2407.16248v1
- Date: Tue, 23 Jul 2024 07:36:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 18:16:07.935122
- Title: Spatiotemporal Graph Guided Multi-modal Network for Livestreaming Product Retrieval
- Title(参考訳): 商品検索をライブストリーミングする時空間グラフガイド型マルチモーダルネットワーク
- Authors: Xiaowan Hu, Yiyi Chen, Yan Li, Minquan Wang, Haoqian Wang, Quan Chen, Han Li, Peng Jiang,
- Abstract要約: そこで本研究では,営業担当者の音声コンテンツを活用したテキスト誘導型アテンション機構を提案する。
長距離時間グラフネットワークは、インスタンスレベルの相互作用とフレームレベルのマッチングの両方を達成するように設計されている。
提案するSGMNモデルの優れた性能を実証し,最先端の手法をかなり上回る性能を示した。
- 参考スコア(独自算出の注目度): 32.478352606125306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid expansion of e-commerce, more consumers have become accustomed to making purchases via livestreaming. Accurately identifying the products being sold by salespeople, i.e., livestreaming product retrieval (LPR), poses a fundamental and daunting challenge. The LPR task encompasses three primary dilemmas in real-world scenarios: 1) the recognition of intended products from distractor products present in the background; 2) the video-image heterogeneity that the appearance of products showcased in live streams often deviates substantially from standardized product images in stores; 3) there are numerous confusing products with subtle visual nuances in the shop. To tackle these challenges, we propose the Spatiotemporal Graphing Multi-modal Network (SGMN). First, we employ a text-guided attention mechanism that leverages the spoken content of salespeople to guide the model to focus toward intended products, emphasizing their salience over cluttered background products. Second, a long-range spatiotemporal graph network is further designed to achieve both instance-level interaction and frame-level matching, solving the misalignment caused by video-image heterogeneity. Third, we propose a multi-modal hard example mining, assisting the model in distinguishing highly similar products with fine-grained features across the video-image-text domain. Through extensive quantitative and qualitative experiments, we demonstrate the superior performance of our proposed SGMN model, surpassing the state-of-the-art methods by a substantial margin. The code is available at \url{https://github.com/Huxiaowan/SGMN}.
- Abstract(参考訳): 電子商取引の急速な拡大に伴い、より多くの消費者がライブストリーミングによる購入に慣れるようになった。
営業担当者が販売している商品、すなわちライブストリーミング製品検索(LPR)を正確に識別することは、根本的な挑戦である。
LPRタスクは、現実世界のシナリオにおける3つの主要なジレンマを含む。
1) 背景に存在する邪魔品から意図した商品の認識
2 ライブストリームに展示されている商品の外観が店内の標準化商品画像から大きく逸脱することも多いビデオ画像の不均一性
3)店内には微妙な視覚的ニュアンスのある混乱した製品が多数ある。
これらの課題に対処するために、時空間グラフマルチモーダルネットワーク(SGMN)を提案する。
まず、営業担当者の音声コンテンツを活用したテキスト誘導型アテンションメカニズムを用いて、モデルを意図した製品に向け、散らばったバックグラウンド製品に対する彼らのサリエンスを強調する。
第二に、長距離時空間グラフネットワークは、インスタンスレベルの相互作用とフレームレベルのマッチングの両方を実現し、ビデオ画像の不均一性に起因する不整合を解決するために、さらに設計されている。
第3に,マルチモーダルなハードサンプルマイニングを提案し,ビデオ画像テキスト領域にまたがる微細な特徴を持つ非常に類似した製品を識別するモデルを支援する。
定量的および定性的な実験を通じて,提案したSGMNモデルの優れた性能を実証し,最先端の手法を実質的なマージンで上回った。
コードは \url{https://github.com/Huxiaowan/SGMN} で公開されている。
関連論文リスト
- Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product
Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。
既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。
本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:00:09Z) - Cross-Domain Product Representation Learning for Rich-Content E-Commerce [16.418118040661646]
本稿では,ROPEと呼ばれる大規模cRoss-dOmain製品認識データセットを提案する。
ROPEは幅広い製品カテゴリーをカバーし、数百万のショートビデオとライブストリームに対応する180,000以上の製品を含んでいる。
プロダクトページ、ショートビデオ、ライブストリームを同時にカバーする最初のデータセットであり、異なるメディアドメイン間で統一された製品表現を確立する基盤を提供する。
論文 参考訳(メタデータ) (2023-08-10T13:06:05Z) - Cross-view Semantic Alignment for Livestreaming Product Recognition [24.38606354376169]
LPR4Mは34のカテゴリをカバーする大規模マルチモーダルデータセットである。
LPR4Mは様々なビデオとノイズモードのペアを含み、長い尾の分布を示す。
クロスビューパッチ間のセマンティックなミスアライメントをペナルティ化するために、新しいパッチ特徴再構成損失を提案する。
論文 参考訳(メタデータ) (2023-08-09T12:23:41Z) - Multi-queue Momentum Contrast for Microvideo-Product Retrieval [57.527227171945796]
マルチモーダルインスタンスとマルチモーダルインスタンス間の検索を探索する最初の試みであるマイクロビデオ製品検索タスクを定式化する。
双方向検索のためのMulti-Queue Momentum Contrast(MQMC)ネットワークという新しい手法を提案する。
マルチキューを用いた識別的選択戦略は、カテゴリによって異なる負の重要性を区別するために用いられる。
論文 参考訳(メタデータ) (2022-12-22T03:47:14Z) - Visually Similar Products Retrieval for Shopsy [0.0]
マルチタスク学習手法を用いて,リセラーコマースのためのビジュアル検索システムを設計する。
我々のモデルは属性分類、三重項ランク付け、変分オートエンコーダ(VAE)の3つの異なるタスクからなる。
論文 参考訳(メタデータ) (2022-10-10T10:59:18Z) - Product1M: Towards Weakly Supervised Instance-Level Product Retrieval
via Cross-modal Pretraining [108.86502855439774]
弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。
実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。
ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T12:11:24Z) - Fashion Focus: Multi-modal Retrieval System for Video Commodity
Localization in E-commerce [18.651201334846352]
ファッションフォーカス(Fashion Focus)と呼ばれるマルチモーダル検索システムの革新的実証について述べる。
オンラインビデオのプロダクトイメージを、焦点として正確にローカライズすることができる。
本システムでは,ビデオコンテンツ構造化とマルチモーダル検索という2つの手法を用いて,高精度なビデオ・ツー・ショップマッチングを実現する。
論文 参考訳(メタデータ) (2021-02-09T09:45:04Z) - Comprehensive Information Integration Modeling Framework for Video
Titling [124.11296128308396]
エンド・ツー・エンド・エンド・モデリング・フレームワークにおいて、消費者生成ビデオの内容、消費者から提供される物語コメント文、製品属性などの包括的情報ソースを統合する。
この問題に対処するため,提案手法は,粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスから構成される。
グローバルなeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集します。
論文 参考訳(メタデータ) (2020-06-24T10:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。