論文の概要: Fashion Focus: Multi-modal Retrieval System for Video Commodity
Localization in E-commerce
- arxiv url: http://arxiv.org/abs/2102.04727v1
- Date: Tue, 9 Feb 2021 09:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:02:19.439794
- Title: Fashion Focus: Multi-modal Retrieval System for Video Commodity
Localization in E-commerce
- Title(参考訳): Fashion Focus:Eコマースにおけるビデオ商品ローカライゼーションのためのマルチモーダル検索システム
- Authors: Yanhao Zhang, Qiang Wang, Pan Pan, Yun Zheng, Cheng Da, Siyang Sun and
Yinghui Xu
- Abstract要約: ファッションフォーカス(Fashion Focus)と呼ばれるマルチモーダル検索システムの革新的実証について述べる。
オンラインビデオのプロダクトイメージを、焦点として正確にローカライズすることができる。
本システムでは,ビデオコンテンツ構造化とマルチモーダル検索という2つの手法を用いて,高精度なビデオ・ツー・ショップマッチングを実現する。
- 参考スコア(独自算出の注目度): 18.651201334846352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, live-stream and short video shopping in E-commerce have grown
exponentially. However, the sellers are required to manually match images of
the selling products to the timestamp of exhibition in the untrimmed video,
resulting in a complicated process. To solve the problem, we present an
innovative demonstration of multi-modal retrieval system called "Fashion
Focus", which enables to exactly localize the product images in the online
video as the focuses. Different modality contributes to the community
localization, including visual content, linguistic features and interaction
context are jointly investigated via presented multi-modal learning. Our system
employs two procedures for analysis, including video content structuring and
multi-modal retrieval, to automatically achieve accurate video-to-shop
matching. Fashion Focus presents a unified framework that can orientate the
consumers towards relevant product exhibitions during watching videos and help
the sellers to effectively deliver the products over search and recommendation.
- Abstract(参考訳): 最近では、Eコマースにおけるライブストリームとショートビデオショッピングが指数関数的に増えている。
しかし、売り手は、販売製品のイメージを未公開のビデオで展示のタイムスタンプに手動で一致させる必要があり、その結果、複雑なプロセスになります。
そこで本研究では,オンラインビデオにおける商品画像の正確なローカライズを可能にするマルチモーダル検索システムであるFashion Focusの革新的なデモを行う。
視覚的内容,言語的特徴,相互作用状況など,コミュニティの地域化に異なるモダリティが寄与し,提示されたマルチモーダル学習を通じて共同で研究される。
本システムでは,ビデオコンテンツの構造化とマルチモーダル検索という2つの分析手順を用いて,映像とショップのマッチングの精度を自動向上する。
Fashion Focusは、ビデオの視聴中に関連する製品展示に消費者をオリエンテーションし、売り手が検索と推奨で製品を効果的に配信するのに役立つ統一されたフレームワークを提供します。
関連論文リスト
- Improving Video Corpus Moment Retrieval with Partial Relevance
Enhancement [79.48249428428802]
ビデオコーパスモーメント検索(VCMR)は、未検索ビデオの大規模なコーパスから関連モーメントを検索するための新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,異なるモダリティに適したクエリ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - MM-AU:Towards Multimodal Understanding of Advertisement Videos [38.117243603403175]
複数のWebソースから8.4Kビデオ(147時間)をキュレートしたマルチモーダルマルチ言語ベンチマークMM-AUを導入する。
広告書き起こしに対する大規模言語モデルの適用を通して,複数のゼロショット推論ベースラインについて検討する。
論文 参考訳(メタデータ) (2023-08-27T09:11:46Z) - Cross-Domain Product Representation Learning for Rich-Content E-Commerce [16.418118040661646]
本稿では,ROPEと呼ばれる大規模cRoss-dOmain製品認識データセットを提案する。
ROPEは幅広い製品カテゴリーをカバーし、数百万のショートビデオとライブストリームに対応する180,000以上の製品を含んでいる。
プロダクトページ、ショートビデオ、ライブストリームを同時にカバーする最初のデータセットであり、異なるメディアドメイン間で統一された製品表現を確立する基盤を提供する。
論文 参考訳(メタデータ) (2023-08-10T13:06:05Z) - Multi-queue Momentum Contrast for Microvideo-Product Retrieval [57.527227171945796]
マルチモーダルインスタンスとマルチモーダルインスタンス間の検索を探索する最初の試みであるマイクロビデオ製品検索タスクを定式化する。
双方向検索のためのMulti-Queue Momentum Contrast(MQMC)ネットワークという新しい手法を提案する。
マルチキューを用いた識別的選択戦略は、カテゴリによって異なる負の重要性を区別するために用いられる。
論文 参考訳(メタデータ) (2022-12-22T03:47:14Z) - CONQUER: Contextual Query-aware Ranking for Video Corpus Moment
Retrieval [24.649068267308913]
ビデオ検索アプリケーションは、ユーザーが大きなビデオコーパスから正確な瞬間を検索できるようにする。
本稿では,効率的なモーメントローカライゼーションとランキングのための新しいモデルを提案する。
クローズドワールドTVエピソードのTVRと、オープンワールドのユーザ生成ビデオのDiDeMoの2つのデータセットについて研究する。
論文 参考訳(メタデータ) (2021-09-21T08:07:27Z) - Multi-modal Representation Learning for Video Advertisement Content
Structuring [10.45050088240847]
ビデオ広告コンテンツ構造化は、所定のビデオ広告を分割し、各セグメントを様々な次元にラベル付けすることを目的としている。
ビデオ広告は、キャプションやスピーチのような十分かつ有用なマルチモーダルコンテンツを含んでいる。
ビデオ音声とテキストの対話により,ビデオ広告からマルチモーダル表現を学習するためのマルチモーダルエンコーダを提案する。
論文 参考訳(メタデータ) (2021-09-04T09:08:29Z) - A Multimodal Framework for Video Ads Understanding [64.70769354696019]
広告ビデオコンテンツの構造化分析能力を向上させるためのマルチモーダルシステムの開発を行う。
2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
論文 参考訳(メタデータ) (2021-08-29T16:06:00Z) - Poet: Product-oriented Video Captioner for E-commerce [124.9936946822493]
電子商取引では、製品プロモーションにユーザ生成ビデオが増えている。このビデオで表されるユーザ優先の製品特性を物語るビデオ記述をどうやって生成するかは、プロモーションを成功させる上で不可欠である。
本稿では,製品指向の動画キャプタフレームワークであるPoetを提案する。
Poetは、生成品質、製品面のキャプチャ、語彙の多様性に関する従来の手法よりも一貫した性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2020-08-16T10:53:46Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z) - Comprehensive Information Integration Modeling Framework for Video
Titling [124.11296128308396]
エンド・ツー・エンド・エンド・モデリング・フレームワークにおいて、消費者生成ビデオの内容、消費者から提供される物語コメント文、製品属性などの包括的情報ソースを統合する。
この問題に対処するため,提案手法は,粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスから構成される。
グローバルなeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集します。
論文 参考訳(メタデータ) (2020-06-24T10:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。