Fugu-MT 論文翻訳(概要): Fashion Focus: Multi-modal Retrieval System for Video Commodity Localization in E-commerce

論文の概要: Fashion Focus: Multi-modal Retrieval System for Video Commodity Localization in E-commerce

arxiv url: http://arxiv.org/abs/2102.04727v1
Date: Tue, 9 Feb 2021 09:45:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-10 15:02:19.439794
Title: Fashion Focus: Multi-modal Retrieval System for Video Commodity Localization in E-commerce
Title（参考訳）: Fashion Focus:Eコマースにおけるビデオ商品ローカライゼーションのためのマルチモーダル検索システム
Authors: Yanhao Zhang, Qiang Wang, Pan Pan, Yun Zheng, Cheng Da, Siyang Sun and Yinghui Xu
Abstract要約: ファッションフォーカス(Fashion Focus)と呼ばれるマルチモーダル検索システムの革新的実証について述べる。オンラインビデオのプロダクトイメージを、焦点として正確にローカライズすることができる。本システムでは,ビデオコンテンツ構造化とマルチモーダル検索という2つの手法を用いて,高精度なビデオ・ツー・ショップマッチングを実現する。
参考スコア（独自算出の注目度）: 18.651201334846352
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Nowadays, live-stream and short video shopping in E-commerce have grown exponentially. However, the sellers are required to manually match images of the selling products to the timestamp of exhibition in the untrimmed video, resulting in a complicated process. To solve the problem, we present an innovative demonstration of multi-modal retrieval system called "Fashion Focus", which enables to exactly localize the product images in the online video as the focuses. Different modality contributes to the community localization, including visual content, linguistic features and interaction context are jointly investigated via presented multi-modal learning. Our system employs two procedures for analysis, including video content structuring and multi-modal retrieval, to automatically achieve accurate video-to-shop matching. Fashion Focus presents a unified framework that can orientate the consumers towards relevant product exhibitions during watching videos and help the sellers to effectively deliver the products over search and recommendation.
Abstract（参考訳）: 最近では、Eコマースにおけるライブストリームとショートビデオショッピングが指数関数的に増えている。しかし、売り手は、販売製品のイメージを未公開のビデオで展示のタイムスタンプに手動で一致させる必要があり、その結果、複雑なプロセスになります。そこで本研究では,オンラインビデオにおける商品画像の正確なローカライズを可能にするマルチモーダル検索システムであるFashion Focusの革新的なデモを行う。視覚的内容,言語的特徴,相互作用状況など,コミュニティの地域化に異なるモダリティが寄与し,提示されたマルチモーダル学習を通じて共同で研究される。本システムでは,ビデオコンテンツの構造化とマルチモーダル検索という2つの分析手順を用いて,映像とショップのマッチングの精度を自動向上する。 Fashion Focusは、ビデオの視聴中に関連する製品展示に消費者をオリエンテーションし、売り手が検索と推奨で製品を効果的に配信するのに役立つ統一されたフレームワークを提供します。

関連論文リスト

ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文参考訳（メタデータ） (2025-07-28T15:52:36Z)
Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。 3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文参考訳（メタデータ） (2024-12-18T06:43:06Z)
ContextIQ: A Multimodal Expert-Based Video Retrieval System for Contextual Advertising [2.330164376631038]
コンテキスト広告は、ユーザーが見ているコンテンツに沿った広告を提供する。共同マルチモーダルトレーニングに基づく現在のテキスト・ビデオ検索モデルでは,大規模なデータセットと計算資源が要求される。本研究では,コンテキスト広告に特化して設計されたマルチモーダル専門家によるビデオ検索システムであるContextIQを紹介する。
論文参考訳（メタデータ） (2024-10-29T17:01:05Z)
Spatiotemporal Graph Guided Multi-modal Network for Livestreaming Product Retrieval [32.478352606125306]
そこで本研究では,営業担当者の音声コンテンツを活用したテキスト誘導型アテンション機構を提案する。長距離時間グラフネットワークは、インスタンスレベルの相互作用とフレームレベルのマッチングの両方を達成するように設計されている。提案するSGMNモデルの優れた性能を実証し,最先端の手法をかなり上回る性能を示した。
論文参考訳（メタデータ） (2024-07-23T07:36:54Z)
Cross-Domain Product Representation Learning for Rich-Content E-Commerce [16.418118040661646]
本稿では,ROPEと呼ばれる大規模cRoss-dOmain製品認識データセットを提案する。 ROPEは幅広い製品カテゴリーをカバーし、数百万のショートビデオとライブストリームに対応する180,000以上の製品を含んでいる。プロダクトページ、ショートビデオ、ライブストリームを同時にカバーする最初のデータセットであり、異なるメディアドメイン間で統一された製品表現を確立する基盤を提供する。
論文参考訳（メタデータ） (2023-08-10T13:06:05Z)
Multi-queue Momentum Contrast for Microvideo-Product Retrieval [57.527227171945796]
マルチモーダルインスタンスとマルチモーダルインスタンス間の検索を探索する最初の試みであるマイクロビデオ製品検索タスクを定式化する。双方向検索のためのMulti-Queue Momentum Contrast(MQMC)ネットワークという新しい手法を提案する。マルチキューを用いた識別的選択戦略は、カテゴリによって異なる負の重要性を区別するために用いられる。
論文参考訳（メタデータ） (2022-12-22T03:47:14Z)
Multi-modal Representation Learning for Video Advertisement Content Structuring [10.45050088240847]
ビデオ広告コンテンツ構造化は、所定のビデオ広告を分割し、各セグメントを様々な次元にラベル付けすることを目的としている。ビデオ広告は、キャプションやスピーチのような十分かつ有用なマルチモーダルコンテンツを含んでいる。ビデオ音声とテキストの対話により,ビデオ広告からマルチモーダル表現を学習するためのマルチモーダルエンコーダを提案する。
論文参考訳（メタデータ） (2021-09-04T09:08:29Z)
A Multimodal Framework for Video Ads Understanding [64.70769354696019]
広告ビデオコンテンツの構造化分析能力を向上させるためのマルチモーダルシステムの開発を行う。 2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
論文参考訳（メタデータ） (2021-08-29T16:06:00Z)
VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles [63.32111010686954]
マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。本稿では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。
論文参考訳（メタデータ） (2020-10-12T02:19:16Z)
Poet: Product-oriented Video Captioner for E-commerce [124.9936946822493]
電子商取引では、製品プロモーションにユーザ生成ビデオが増えている。このビデオで表されるユーザ優先の製品特性を物語るビデオ記述をどうやって生成するかは、プロモーションを成功させる上で不可欠である。本稿では,製品指向の動画キャプタフレームワークであるPoetを提案する。 Poetは、生成品質、製品面のキャプチャ、語彙の多様性に関する従来の手法よりも一貫した性能向上を実現していることを示す。
論文参考訳（メタデータ） (2020-08-16T10:53:46Z)
Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文参考訳（メタデータ） (2020-06-29T17:50:23Z)
Comprehensive Information Integration Modeling Framework for Video Titling [124.11296128308396]
エンド・ツー・エンド・エンド・モデリング・フレームワークにおいて、消費者生成ビデオの内容、消費者から提供される物語コメント文、製品属性などの包括的情報ソースを統合する。この問題に対処するため,提案手法は,粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスから構成される。グローバルなeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集します。
論文参考訳（メタデータ） (2020-06-24T10:38:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。