論文の概要: Cross-view Semantic Alignment for Livestreaming Product Recognition
- arxiv url: http://arxiv.org/abs/2308.04912v2
- Date: Sat, 19 Aug 2023 02:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 22:15:46.481215
- Title: Cross-view Semantic Alignment for Livestreaming Product Recognition
- Title(参考訳): ライブストリーミング製品認識のためのクロスビューセマンティクスアライメント
- Authors: Wenjie Yang, Yiyi Chen, Yan Li, Yanhua Cheng, Xudong Liu, Quan Chen,
Han Li
- Abstract要約: LPR4Mは34のカテゴリをカバーする大規模マルチモーダルデータセットである。
LPR4Mは様々なビデオとノイズモードのペアを含み、長い尾の分布を示す。
クロスビューパッチ間のセマンティックなミスアライメントをペナルティ化するために、新しいパッチ特徴再構成損失を提案する。
- 参考スコア(独自算出の注目度): 24.38606354376169
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Live commerce is the act of selling products online through live streaming.
The customer's diverse demands for online products introduce more challenges to
Livestreaming Product Recognition. Previous works have primarily focused on
fashion clothing data or utilize single-modal input, which does not reflect the
real-world scenario where multimodal data from various categories are present.
In this paper, we present LPR4M, a large-scale multimodal dataset that covers
34 categories, comprises 3 modalities (image, video, and text), and is 50x
larger than the largest publicly available dataset. LPR4M contains diverse
videos and noise modality pairs while exhibiting a long-tailed distribution,
resembling real-world problems. Moreover, a cRoss-vIew semantiC alignmEnt
(RICE) model is proposed to learn discriminative instance features from the
image and video views of the products. This is achieved through instance-level
contrastive learning and cross-view patch-level feature propagation. A novel
Patch Feature Reconstruction loss is proposed to penalize the semantic
misalignment between cross-view patches. Extensive experiments demonstrate the
effectiveness of RICE and provide insights into the importance of dataset
diversity and expressivity. The dataset and code are available at
https://github.com/adxcreative/RICE
- Abstract(参考訳): live commerceは、ライブストリーミングを通じて商品をオンラインで販売する行為だ。
オンライン製品に対する顧客のさまざまな要求は、Livestreaming Product Recognitionにさらなる課題をもたらす。
以前の作品は、ファッション服のデータやシングルモーダル入力の利用に重点を置いており、さまざまなカテゴリのマルチモーダルデータが存在する現実のシナリオを反映していない。
本稿では,34のカテゴリをカバーする大規模マルチモーダルデータセットであるLPR4Mについて述べる。
LPR4Mは様々なビデオとノイズモードのペアを含み、現実世界の問題に似た長い尾の分布を示す。
さらに、製品の画像やビデオビューから識別インスタンスの特徴を学習するために、cRoss-vIew semantiCalignedmEnt (RICE)モデルを提案する。
これはインスタンスレベルのコントラスト学習とクロスビューパッチレベルの機能伝達によって実現される。
クロスビューパッチ間の意味的不一致を罰するために,新しいパッチ特徴復元損失を提案する。
広範な実験がライスの有効性を実証し、データセットの多様性と表現力の重要性について洞察を与える。
データセットとコードはhttps://github.com/adxcreative/riceで入手できる。
関連論文リスト
- ASR-enhanced Multimodal Representation Learning for Cross-Domain Product Retrieval [28.13183873658186]
電子商取引はますますマルチメディア化され、画像やショートビデオ、ライブストリームのプロモーションなど、幅広い領域で商品が展示されている。
広義のシナリオでは、製品内変異が大きく、製品間類似度が高いため、視覚のみの表現は不十分である。
ASRによるマルチモーダル製品表現学習(AMPere)を提案する。
論文 参考訳(メタデータ) (2024-08-06T06:24:10Z) - Spatiotemporal Graph Guided Multi-modal Network for Livestreaming Product Retrieval [32.478352606125306]
そこで本研究では,営業担当者の音声コンテンツを活用したテキスト誘導型アテンション機構を提案する。
長距離時間グラフネットワークは、インスタンスレベルの相互作用とフレームレベルのマッチングの両方を達成するように設計されている。
提案するSGMNモデルの優れた性能を実証し,最先端の手法をかなり上回る性能を示した。
論文 参考訳(メタデータ) (2024-07-23T07:36:54Z) - Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding [25.4933695784155]
ビデオの創造性と内容の理解はしばしば個人によって異なり、年齢、経験、性別によって焦点や認知レベルが異なる。
実世界のアプリケーションとのギャップを埋めるために,ビデオデータセット用の大規模主観応答指標を導入する。
我々は,異なるユーザ間での映像コンテンツの認知的理解度を分析し,評価するためのタスクとプロトコルを開発した。
論文 参考訳(メタデータ) (2024-07-11T03:00:26Z) - Cross-Domain Product Representation Learning for Rich-Content E-Commerce [16.418118040661646]
本稿では,ROPEと呼ばれる大規模cRoss-dOmain製品認識データセットを提案する。
ROPEは幅広い製品カテゴリーをカバーし、数百万のショートビデオとライブストリームに対応する180,000以上の製品を含んでいる。
プロダクトページ、ショートビデオ、ライブストリームを同時にカバーする最初のデータセットであり、異なるメディアドメイン間で統一された製品表現を確立する基盤を提供する。
論文 参考訳(メタデータ) (2023-08-10T13:06:05Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-03-22T09:33:50Z) - Multi-queue Momentum Contrast for Microvideo-Product Retrieval [57.527227171945796]
マルチモーダルインスタンスとマルチモーダルインスタンス間の検索を探索する最初の試みであるマイクロビデオ製品検索タスクを定式化する。
双方向検索のためのMulti-Queue Momentum Contrast(MQMC)ネットワークという新しい手法を提案する。
マルチキューを用いた識別的選択戦略は、カテゴリによって異なる負の重要性を区別するために用いられる。
論文 参考訳(メタデータ) (2022-12-22T03:47:14Z) - Multi-Modal Attribute Extraction for E-Commerce [4.626261940793027]
モダリティをシームレスに組み合わせるための新しいアプローチを開発しており、これは我々の単一モダリティ調査にインスパイアされている。
楽天・一葉データの実験は、我々のアプローチの利点の実証的な証拠を提供する。
論文 参考訳(メタデータ) (2022-03-07T14:48:44Z) - Product1M: Towards Weakly Supervised Instance-Level Product Retrieval
via Cross-modal Pretraining [108.86502855439774]
弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。
実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。
ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T12:11:24Z) - Comprehensive Information Integration Modeling Framework for Video
Titling [124.11296128308396]
エンド・ツー・エンド・エンド・モデリング・フレームワークにおいて、消費者生成ビデオの内容、消費者から提供される物語コメント文、製品属性などの包括的情報ソースを統合する。
この問題に対処するため,提案手法は,粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスから構成される。
グローバルなeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集します。
論文 参考訳(メタデータ) (2020-06-24T10:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。