論文の概要: Will You Ever Become Popular? Learning to Predict Virality of Dance
Clips
- arxiv url: http://arxiv.org/abs/2111.03819v1
- Date: Sat, 6 Nov 2021 07:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 04:53:40.845028
- Title: Will You Ever Become Popular? Learning to Predict Virality of Dance
Clips
- Title(参考訳): 人気者になれるか?
ダンスクリップの正当性を予測するための学習
- Authors: Jiahao Wang, Yunhong Wang, Nina Weng, Tianrui Chai, Annan Li, Faxi
Zhang, Sansi Yu
- Abstract要約: 本稿では, 骨格, 全体像, 顔, 景色を融合した新しいマルチモーダルフレームワークを提案する。
体の動きをモデル化するために、階層的に時間的骨格グラフを洗練させるピラミッド状骨格グラフ畳み込みネットワーク(PSGCN)を提案する。
提案手法を検証するために,8つのバイラルダンス課題の4000以上のダンスクリップを含む大規模バイラルダンスビデオ(VDV)データセットを導入した。
- 参考スコア(独自算出の注目度): 41.2877440857042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dance challenges are going viral in video communities like TikTok nowadays.
Once a challenge becomes popular, thousands of short-form videos will be
uploaded in merely a couple of days. Therefore, virality prediction from dance
challenges is of great commercial value and has a wide range of applications,
such as smart recommendation and popularity promotion. In this paper, a novel
multi-modal framework which integrates skeletal, holistic appearance, facial
and scenic cues is proposed for comprehensive dance virality prediction. To
model body movements, we propose a pyramidal skeleton graph convolutional
network (PSGCN) which hierarchically refines spatio-temporal skeleton graphs.
Meanwhile, we introduce a relational temporal convolutional network (RTCN) to
exploit appearance dynamics with non-local temporal relations. An attentive
fusion approach is finally proposed to adaptively aggregate predictions from
different modalities. To validate our method, we introduce a large-scale viral
dance video (VDV) dataset, which contains over 4,000 dance clips of eight viral
dance challenges. Extensive experiments on the VDV dataset demonstrate the
efficacy of our model. Extensive experiments on the VDV dataset well
demonstrate the effectiveness of our approach. Furthermore, we show that short
video applications like multi-dimensional recommendation and action feedback
can be derived from our model.
- Abstract(参考訳): 最近、TikTokのようなビデオコミュニティでダンスの挑戦が広まっている。
チャレンジが人気になったら、わずか数日で何千という短いビデオがアップロードされる。
したがって、ダンス課題からのバイラル性予測は商業的価値が高く、スマートレコメンデーションや人気促進など幅広い応用がある。
本稿では, 包括的ダンスバイラル性予測のために骨格, 全体像, 顔, 景色を融合した新しいマルチモーダルフレームワークを提案する。
体の動きをモデル化するために,時間的スケルトングラフを階層的に洗練するピラミッド型スケルトングラフ畳み込みネットワーク(PSGCN)を提案する。
一方,rtcn(relational temporal convolutional network)を導入することで,非局所的時間的関係の出現ダイナミクスを活用できる。
異なるモードからの予測を適応的に集約するために、注意的融合アプローチが最終的に提案される。
提案手法を検証するために,8つのバイラルダンス課題の4000以上のダンスクリップを含む大規模バイラルダンスビデオ(VDV)データセットを導入した。
VDVデータセットの大規模な実験により,本モデルの有効性が示された。
VDVデータセットの大規模な実験は、我々のアプローチの有効性をよく示している。
さらに,本モデルから多次元レコメンデーションやアクションフィードバックなどのショートビデオアプリケーションが導出可能であることを示す。
関連論文リスト
- MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - MAGVIT: Masked Generative Video Transformer [129.50814875955444]
我々は,MAsked Generative VIdeo Transformer(MAGVIT)を導入し,単一のモデルで様々なビデオ合成タスクに取り組む。
単一のMAGVITモデルは10の多様な生成タスクをサポートし、異なる視覚領域からのビデオ間で一般化する。
論文 参考訳(メタデータ) (2022-12-10T04:26:32Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Event and Activity Recognition in Video Surveillance for Cyber-Physical
Systems [0.0]
長期動作パターンは、イベントを認識するタスクにおいて、それ自体が重要な役割を果たす。
本研究では,イベント認識作業において,長期動作パターンのみが重要な役割を担っていることを示す。
時間的特徴のみをハイブリッド畳み込みニューラルネットワーク(CNN)+リカレントニューラルネットワーク(RNN)アーキテクチャで活用する。
論文 参考訳(メタデータ) (2021-11-03T08:30:38Z) - Transflower: probabilistic autoregressive dance generation with
multimodal attention [31.308435764603658]
本稿では,従来のポーズに条件付き正規化フローと音楽文脈をモデル化した,確率的自己回帰型アーキテクチャを提案する。
第2に,プロとカジュアルの両方のダンサーを含む,さまざまなモーションキャプチャ技術で得られた,現在最大の3Dダンスモーションデータセットを紹介する。
論文 参考訳(メタデータ) (2021-06-25T20:14:28Z) - A Gated Fusion Network for Dynamic Saliency Prediction [16.701214795454536]
Gated Fusion Network for dynamic saliency (GFSalNet)
GFSalNetはゲート融合機構を介して動的に予測を行うことができる最初のディープサリエンシーモデルです。
さらに,その適応的融合手法により,時間情報をより効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-02-15T17:18:37Z) - Learning to Generate Diverse Dance Motions with Transformer [67.43270523386185]
ダンス・モーション・シンセサイザーのための完全なシステムを提案する。
大規模なダンスモーションデータセットはYouTubeビデオから作成される。
新たな2ストリームモーショントランス生成モデルでは、高い柔軟性で動作シーケンスを生成することができる。
論文 参考訳(メタデータ) (2020-08-18T22:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。