論文の概要: D&M: Enriching E-commerce Videos with Sound Effects by Key Moment Detection and SFX Matching
- arxiv url: http://arxiv.org/abs/2408.13226v1
- Date: Fri, 23 Aug 2024 17:01:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 14:20:44.776567
- Title: D&M: Enriching E-commerce Videos with Sound Effects by Key Moment Detection and SFX Matching
- Title(参考訳): D&M:キーモーメント検出とSFXマッチングによるサウンドエフェクトによるEコマースビデオの強化
- Authors: Jingyu Liu, Minquan Wang, Ye Ma, Bo Wang, Aozhu Chen, Quan Chen, Peng Jiang, Xirong Li,
- Abstract要約: 本稿では,SFXマッチングを同時に行うために,キーモーメント検出とモーメントを同時に行う統一手法を提案する。
新しいVDSFXタスクのために、Eコマースプラットフォームから大規模なデータセットSFX-Momentを構築します。
- 参考スコア(独自算出の注目度): 22.083181387066297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos showcasing specific products are increasingly important for E-commerce. Key moments naturally exist as the first appearance of a specific product, presentation of its distinctive features, the presence of a buying link, etc. Adding proper sound effects (SFX) to these key moments, or video decoration with SFX (VDSFX), is crucial for enhancing the user engaging experience. Previous studies about adding SFX to videos perform video to SFX matching at a holistic level, lacking the ability of adding SFX to a specific moment. Meanwhile, previous studies on video highlight detection or video moment retrieval consider only moment localization, leaving moment to SFX matching untouched. By contrast, we propose in this paper D&M, a unified method that accomplishes key moment detection and moment to SFX matching simultaneously. Moreover, for the new VDSFX task we build a large-scale dataset SFX-Moment from an E-commerce platform. For a fair comparison, we build competitive baselines by extending a number of current video moment detection methods to the new task. Extensive experiments on SFX-Moment show the superior performance of the proposed method over the baselines. Code and data will be released.
- Abstract(参考訳): 特定の商品を展示するビデオは、Eコマースにとってますます重要になっている。
特定の商品の最初の出現、特徴の提示、購入リンクの存在など、重要な瞬間が自然に存在する。
これらのキーモーメントに適切なサウンドエフェクト(SFX)を加えること、あるいはSFX(VDSFX)を使ったビデオデコレーションは、ユーザエンゲージメントエクスペリエンスの向上に不可欠である。
ビデオにSFXを追加することに関するこれまでの研究は、SFXマッチングを全体的レベルで実行し、特定の瞬間にSFXを追加する能力が欠如している。
一方、ビデオハイライト検出やビデオモーメント検索に関する以前の研究では、モーメントローカライゼーションのみを考慮しており、モーメントマッチングは未対応である。
対照的に,本論文ではキーモーメント検出とSFXの同時マッチングを実現する統一手法であるD&Mを提案する。
さらに、新しいVDSFXタスクでは、Eコマースプラットフォームから大規模なデータセットSFX-Momentを構築します。
公正な比較のために、我々は、多くの現在のビデオモーメント検出方法を新しいタスクに拡張することで、競争力のあるベースラインを構築する。
SFX-Momentの大規模実験により,提案手法がベースラインよりも優れた性能を示した。
コードとデータはリリースされます。
関連論文リスト
- Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Bridging High-Quality Audio and Video via Language for Sound Effects
Retrieval from Visual Queries [18.224608377111533]
ビデオ中のモーメントにマッチする適切なサウンドエフェクト(SFX)を見つけるのは難しく、時間を要する作業です。
ビデオフレームからHQ SFXを推薦するフレームワークを提案する。
自動データキュレーションパイプラインを用いてトレーニングした本システムは,Wildデータに基づいてトレーニングしたベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2023-08-17T16:38:30Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - Task-adaptive Spatial-Temporal Video Sampler for Few-shot Action
Recognition [25.888314212797436]
本稿では,アクション認識のための新しいビデオフレームサンプリング手法を提案する。
タスク固有の時空間フレームサンプリングは時空間セレクタ(TS)と空間増幅器(SA)を介して実現される
実験では、長期ビデオを含む様々なベンチマークが大幅に向上した。
論文 参考訳(メタデータ) (2022-07-20T09:04:12Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Deep-VFX: Deep Action Recognition Driven VFX for Short Video [10.639128011498675]
本稿では,従来のテンプレートマッチングの代わりに動作駆動によるVFX合成を変更することを目的とする。
このシステムでは骨格抽出が不可欠である。
また,行動認識によるユーザの意図の把握を目的としたLSTMの新たな形態を提案する。
論文 参考訳(メタデータ) (2020-07-22T08:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。