論文の概要: Will You Ever Become Popular? Learning to Predict Virality of Dance
Clips
- arxiv url: http://arxiv.org/abs/2111.03819v1
- Date: Sat, 6 Nov 2021 07:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 04:53:40.845028
- Title: Will You Ever Become Popular? Learning to Predict Virality of Dance
Clips
- Title(参考訳): 人気者になれるか?
ダンスクリップの正当性を予測するための学習
- Authors: Jiahao Wang, Yunhong Wang, Nina Weng, Tianrui Chai, Annan Li, Faxi
Zhang, Sansi Yu
- Abstract要約: 本稿では, 骨格, 全体像, 顔, 景色を融合した新しいマルチモーダルフレームワークを提案する。
体の動きをモデル化するために、階層的に時間的骨格グラフを洗練させるピラミッド状骨格グラフ畳み込みネットワーク(PSGCN)を提案する。
提案手法を検証するために,8つのバイラルダンス課題の4000以上のダンスクリップを含む大規模バイラルダンスビデオ(VDV)データセットを導入した。
- 参考スコア(独自算出の注目度): 41.2877440857042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dance challenges are going viral in video communities like TikTok nowadays.
Once a challenge becomes popular, thousands of short-form videos will be
uploaded in merely a couple of days. Therefore, virality prediction from dance
challenges is of great commercial value and has a wide range of applications,
such as smart recommendation and popularity promotion. In this paper, a novel
multi-modal framework which integrates skeletal, holistic appearance, facial
and scenic cues is proposed for comprehensive dance virality prediction. To
model body movements, we propose a pyramidal skeleton graph convolutional
network (PSGCN) which hierarchically refines spatio-temporal skeleton graphs.
Meanwhile, we introduce a relational temporal convolutional network (RTCN) to
exploit appearance dynamics with non-local temporal relations. An attentive
fusion approach is finally proposed to adaptively aggregate predictions from
different modalities. To validate our method, we introduce a large-scale viral
dance video (VDV) dataset, which contains over 4,000 dance clips of eight viral
dance challenges. Extensive experiments on the VDV dataset demonstrate the
efficacy of our model. Extensive experiments on the VDV dataset well
demonstrate the effectiveness of our approach. Furthermore, we show that short
video applications like multi-dimensional recommendation and action feedback
can be derived from our model.
- Abstract(参考訳): 最近、TikTokのようなビデオコミュニティでダンスの挑戦が広まっている。
チャレンジが人気になったら、わずか数日で何千という短いビデオがアップロードされる。
したがって、ダンス課題からのバイラル性予測は商業的価値が高く、スマートレコメンデーションや人気促進など幅広い応用がある。
本稿では, 包括的ダンスバイラル性予測のために骨格, 全体像, 顔, 景色を融合した新しいマルチモーダルフレームワークを提案する。
体の動きをモデル化するために,時間的スケルトングラフを階層的に洗練するピラミッド型スケルトングラフ畳み込みネットワーク(PSGCN)を提案する。
一方,rtcn(relational temporal convolutional network)を導入することで,非局所的時間的関係の出現ダイナミクスを活用できる。
異なるモードからの予測を適応的に集約するために、注意的融合アプローチが最終的に提案される。
提案手法を検証するために,8つのバイラルダンス課題の4000以上のダンスクリップを含む大規模バイラルダンスビデオ(VDV)データセットを導入した。
VDVデータセットの大規模な実験により,本モデルの有効性が示された。
VDVデータセットの大規模な実験は、我々のアプローチの有効性をよく示している。
さらに,本モデルから多次元レコメンデーションやアクションフィードバックなどのショートビデオアプリケーションが導出可能であることを示す。
関連論文リスト
- MUFM: A Mamba-Enhanced Feedback Model for Micro Video Popularity Prediction [1.7040391128945196]
ユーザフィードバックと動的イベントインタラクションにおける長期的依存関係をキャプチャするフレームワークを導入する。
大規模なオープンソースマルチモーダルデータセットに関する我々の実験は、我々のモデルが最先端のアプローチを23.2%上回っていることを示している。
論文 参考訳(メタデータ) (2024-11-23T05:13:27Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - VITON-DiT: Learning In-the-Wild Video Try-On from Human Dance Videos via Diffusion Transformers [53.45587477621942]
そこで本研究では,VITON-DiT という,Diton-DiT ベースのビデオトライオンフレームワークを提案する。
具体的には、VITON-DiTは、衣服抽出器、空間-テンポラル denoising DiT、アイデンティティ保存制御ネットから構成される。
また、トレーニング中のランダム選択戦略や、長いビデオ生成を容易にするために、推論時に補間自己回帰(IAR)技術を導入する。
論文 参考訳(メタデータ) (2024-05-28T16:21:03Z) - ViViD: Video Virtual Try-on using Diffusion Models [46.710863047471264]
Video Virtual try-onは、服のアイテムを対象者のビデオに転送することを目的としている。
これまでのビデオベースの試行錯誤ソリューションは、視力の低い結果とぼやけた結果しか生成できない。
ビデオ仮想トライオンの課題に対処するために,強力な拡散モデルを用いた新しいフレームワークViViDを提案する。
論文 参考訳(メタデータ) (2024-05-20T05:28:22Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - MAGVIT: Masked Generative Video Transformer [129.50814875955444]
我々は,MAsked Generative VIdeo Transformer(MAGVIT)を導入し,単一のモデルで様々なビデオ合成タスクに取り組む。
単一のMAGVITモデルは10の多様な生成タスクをサポートし、異なる視覚領域からのビデオ間で一般化する。
論文 参考訳(メタデータ) (2022-12-10T04:26:32Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。