Fugu-MT 論文翻訳(概要): Will You Ever Become Popular? Learning to Predict Virality of Dance Clips

論文の概要: Will You Ever Become Popular? Learning to Predict Virality of Dance Clips

arxiv url: http://arxiv.org/abs/2111.03819v1
Date: Sat, 6 Nov 2021 07:26:28 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-11 04:53:40.845028
Title: Will You Ever Become Popular? Learning to Predict Virality of Dance Clips
Title（参考訳）: 人気者になれるか? ダンスクリップの正当性を予測するための学習
Authors: Jiahao Wang, Yunhong Wang, Nina Weng, Tianrui Chai, Annan Li, Faxi Zhang, Sansi Yu
Abstract要約: 本稿では, 骨格, 全体像, 顔, 景色を融合した新しいマルチモーダルフレームワークを提案する。体の動きをモデル化するために、階層的に時間的骨格グラフを洗練させるピラミッド状骨格グラフ畳み込みネットワーク(PSGCN)を提案する。提案手法を検証するために,8つのバイラルダンス課題の4000以上のダンスクリップを含む大規模バイラルダンスビデオ(VDV)データセットを導入した。
参考スコア（独自算出の注目度）: 41.2877440857042
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Dance challenges are going viral in video communities like TikTok nowadays. Once a challenge becomes popular, thousands of short-form videos will be uploaded in merely a couple of days. Therefore, virality prediction from dance challenges is of great commercial value and has a wide range of applications, such as smart recommendation and popularity promotion. In this paper, a novel multi-modal framework which integrates skeletal, holistic appearance, facial and scenic cues is proposed for comprehensive dance virality prediction. To model body movements, we propose a pyramidal skeleton graph convolutional network (PSGCN) which hierarchically refines spatio-temporal skeleton graphs. Meanwhile, we introduce a relational temporal convolutional network (RTCN) to exploit appearance dynamics with non-local temporal relations. An attentive fusion approach is finally proposed to adaptively aggregate predictions from different modalities. To validate our method, we introduce a large-scale viral dance video (VDV) dataset, which contains over 4,000 dance clips of eight viral dance challenges. Extensive experiments on the VDV dataset demonstrate the efficacy of our model. Extensive experiments on the VDV dataset well demonstrate the effectiveness of our approach. Furthermore, we show that short video applications like multi-dimensional recommendation and action feedback can be derived from our model.
Abstract（参考訳）: 最近、TikTokのようなビデオコミュニティでダンスの挑戦が広まっている。チャレンジが人気になったら、わずか数日で何千という短いビデオがアップロードされる。したがって、ダンス課題からのバイラル性予測は商業的価値が高く、スマートレコメンデーションや人気促進など幅広い応用がある。本稿では, 包括的ダンスバイラル性予測のために骨格, 全体像, 顔, 景色を融合した新しいマルチモーダルフレームワークを提案する。体の動きをモデル化するために,時間的スケルトングラフを階層的に洗練するピラミッド型スケルトングラフ畳み込みネットワーク(PSGCN)を提案する。一方,rtcn(relational temporal convolutional network)を導入することで,非局所的時間的関係の出現ダイナミクスを活用できる。異なるモードからの予測を適応的に集約するために、注意的融合アプローチが最終的に提案される。提案手法を検証するために,8つのバイラルダンス課題の4000以上のダンスクリップを含む大規模バイラルダンスビデオ(VDV)データセットを導入した。 VDVデータセットの大規模な実験により,本モデルの有効性が示された。 VDVデータセットの大規模な実験は、我々のアプローチの有効性をよく示している。さらに,本モデルから多次元レコメンデーションやアクションフィードバックなどのショートビデオアプリケーションが導出可能であることを示す。

関連論文リスト

DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework [26.661935208583756]
VVT(Virtual try-on)技術は、eコマース広告やエンターテイメントに将来性があるとして、学術的な関心を集めている。本研究では,現実のシナリオにおける適応性を高めるために,多種多様な人間中心データを活用することが可能なDreamVVTを提案する。第1段階では、入力ビデオから代表フレームをサンプリングし、視覚言語モデル(VLM)と統合された多フレーム試行モデルを用いて、高忠実で意味論的に整合した試行画像を合成する。第2段階では、微粒な動きと外観記述とともに骨格図が作成される。
論文参考訳（メタデータ） (2025-08-04T18:27:55Z)
MVP: Winning Solution to SMP Challenge 2025 Video Track [16.78634288864967]
我々は,SMP Challenge 2025のビデオトラックの優勝ソリューションであるMultimodal Video Predictor(MVP)を紹介する。 MVPは、事前訓練されたモデルから抽出されたディープビデオ機能とユーザメタデータとコンテキスト情報を統合することで、表現力のあるポスト表現を構築する。本手法は,ソーシャルプラットフォーム上でのマルチモーダル動画人気予測の有効性と信頼性を実証し,ビデオトラックの公式評価において第1位に位置づけた。
論文参考訳（メタデータ） (2025-07-01T16:52:20Z)
MUFM: A Mamba-Enhanced Feedback Model for Micro Video Popularity Prediction [1.7040391128945196]
ユーザフィードバックと動的イベントインタラクションにおける長期的依存関係をキャプチャするフレームワークを導入する。大規模なオープンソースマルチモーダルデータセットに関する我々の実験は、我々のモデルが最先端のアプローチを23.2%上回っていることを示している。
論文参考訳（メタデータ） (2024-11-23T05:13:27Z)
WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文参考訳（メタデータ） (2024-07-15T11:21:03Z)
VITON-DiT: Learning In-the-Wild Video Try-On from Human Dance Videos via Diffusion Transformers [53.45587477621942]
そこで本研究では,VITON-DiT という,Diton-DiT ベースのビデオトライオンフレームワークを提案する。具体的には、VITON-DiTは、衣服抽出器、空間-テンポラル denoising DiT、アイデンティティ保存制御ネットから構成される。また、トレーニング中のランダム選択戦略や、長いビデオ生成を容易にするために、推論時に補間自己回帰(IAR)技術を導入する。
論文参考訳（メタデータ） (2024-05-28T16:21:03Z)
ViViD: Video Virtual Try-on using Diffusion Models [46.710863047471264]
Video Virtual try-onは、服のアイテムを対象者のビデオに転送することを目的としている。これまでのビデオベースの試行錯誤ソリューションは、視力の低い結果とぼやけた結果しか生成できない。ビデオ仮想トライオンの課題に対処するために,強力な拡散モデルを用いた新しいフレームワークViViDを提案する。
論文参考訳（メタデータ） (2024-05-20T05:28:22Z)
MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。 MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文参考訳（メタデータ） (2022-12-19T15:05:40Z)
MAGVIT: Masked Generative Video Transformer [129.50814875955444]
我々は,MAsked Generative VIdeo Transformer(MAGVIT)を導入し,単一のモデルで様々なビデオ合成タスクに取り組む。単一のMAGVITモデルは10の多様な生成タスクをサポートし、異なる視覚領域からのビデオ間で一般化する。
論文参考訳（メタデータ） (2022-12-10T04:26:32Z)
Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文参考訳（メタデータ） (2022-01-27T16:38:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。