論文の概要: Automatic Dance Video Segmentation for Understanding Choreography
- arxiv url: http://arxiv.org/abs/2405.19727v1
- Date: Thu, 30 May 2024 06:19:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 17:57:08.484634
- Title: Automatic Dance Video Segmentation for Understanding Choreography
- Title(参考訳): 振り付け理解のための自動ダンスビデオセグメンテーション
- Authors: Koki Endo, Shuhei Tsuchida, Tsukasa Fukusato, Takeo Igarashi,
- Abstract要約: 本研究では,ダンスビデオを自動的に各動作に分割する手法を提案する。
トレーニングデータセットを構築するために、AIST Dance Video Databaseでセグメンテーションポイントをアノテートしてビデオをダンスする。
評価の結果,提案手法は高い精度でセグメンテーション点を推定できることがわかった。
- 参考スコア(独自算出の注目度): 10.053913399613764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmenting dance video into short movements is a popular way to easily understand dance choreography. However, it is currently done manually and requires a significant amount of effort by experts. That is, even if many dance videos are available on social media (e.g., TikTok and YouTube), it remains difficult for people, especially novices, to casually watch short video segments to practice dance choreography. In this paper, we propose a method to automatically segment a dance video into each movement. Given a dance video as input, we first extract visual and audio features: the former is computed from the keypoints of the dancer in the video, and the latter is computed from the Mel spectrogram of the music in the video. Next, these features are passed to a Temporal Convolutional Network (TCN), and segmentation points are estimated by picking peaks of the network output. To build our training dataset, we annotate segmentation points to dance videos in the AIST Dance Video Database, which is a shared database containing original street dance videos with copyright-cleared dance music. The evaluation study shows that the proposed method (i.e., combining the visual and audio features) can estimate segmentation points with high accuracy. In addition, we developed an application to help dancers practice choreography using the proposed method.
- Abstract(参考訳): ダンスビデオを短い動きに分割することは、ダンス振付を容易に理解するための一般的な方法である。
しかし、現在手作業で行われており、専門家によるかなりの労力を要する。
つまり、多くのダンスビデオがソーシャルメディア(例えばTikTokやYouTube)で利用可能であるとしても、特に初心者がダンス振付の練習のために短いビデオセグメントをさりげなく見ることは難しい。
本稿では,ダンスビデオを自動的に各動作に分割する手法を提案する。
ダンスビデオが入力として与えられると、まず視覚的特徴と音声的特徴を抽出し、前者はビデオ内のダンサーのキーポイントから計算し、後者はビデオ内の音楽のメルスペクトルから計算する。
次に、これらの特徴を時間畳み込みネットワーク(TCN)に渡し、ネットワーク出力のピークを抽出してセグメンテーションポイントを推定する。
トレーニングデータセットを構築するために,AIST Dance Video Databaseのセグメンテーションポイントをアノテートした。
評価実験により,提案手法(視覚的特徴と音声的特徴を組み合わせたもの)は,高い精度でセグメンテーションポイントを推定できることが示唆された。
さらに,提案手法を用いてダンサーの振付練習を支援するアプリケーションを開発した。
関連論文リスト
- Dance Any Beat: Blending Beats with Visuals in Dance Video Generation [12.018432669719742]
音楽によってガイドされた個人の画像から直接ダンスビデオを生成するという新しいタスクを導入する。
我々のソリューションであるDance Any Beat Diffusion Model (DabFusion)は、参照画像と楽曲を使用してダンスビデオを生成する。
AIST++データセットを用いてDabFusionの性能評価を行い,映像品質,オーディオ・ビデオ同期,モーション・ミュージックアライメントに着目した。
論文 参考訳(メタデータ) (2024-05-15T11:33:07Z) - Duolando: Follower GPT with Off-Policy Reinforcement Learning for Dance Accompaniment [87.20240797625648]
舞踊伴奏と呼ばれる3次元舞踊生成の分野における新しい課題を紹介する。
これは、リードダンサーの動きと、基礎となる音楽リズムと同期した「フォロワー」と呼ばれるダンスパートナーからの応答的な動きを生成する必要がある。
本稿では,GPTに基づくDuolandoモデルを提案する。このモデルでは,音楽の協調情報,リーダの動作,従者の動きに基づいて,後続のトークン化動作を自動回帰予測する。
論文 参考訳(メタデータ) (2024-03-27T17:57:02Z) - DanceCamera3D: 3D Camera Movement Synthesis with Music and Dance [50.01162760878841]
DCMは、カメラの動きとダンスモーションと音楽オーディオを組み合わせた、新しいマルチモーダルな3Dデータセットである。
このデータセットは、アニメコミュニティからのペアダンスカメラ音楽データの108のダンスシーケンス(3.2時間)を含む。
本研究では,新しいボディアテンション損失と条件分離戦略を組み込んだトランスフォーマーに基づく拡散モデルであるDanceCamera3Dを提案する。
論文 参考訳(メタデータ) (2024-03-20T15:24:57Z) - Music-Driven Group Choreography [10.501572863039852]
$rm AIOZ-GDANCE$は、音楽駆動のグループダンス生成のための新しい大規模データセットである。
集団舞踊運動の生成に単一舞踊生成法を鼻で適用することで,満足のいく結果が得られないことが示唆された。
本稿では,複数のグループコヒーレントな振付を効率よく作成するために,入力音楽シーケンスとダンサーの3D位置のセットを取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-22T06:26:56Z) - PirouNet: Creating Intentional Dance with Semi-Supervised Conditional
Recurrent Variational Autoencoders [3.867363075280544]
ダンスラベリングWebアプリケーションを用いた半教師付き条件付きリカレント変分自動エンコーダ"PirouNet"を提案する。
提案された半教師付きアプローチのおかげで、PirouNetはデータセットのごく一部だけをラベル付けする必要がある。
我々はPirouNetのダンス生成を質的、定量的な一連の指標を通じて広範囲に評価し、振付家のためのツールとして適用可能であることを検証した。
論文 参考訳(メタデータ) (2022-07-21T18:04:59Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic
Memory [92.81383016482813]
そこで我々は3Dキャラクターを1曲の楽曲に追従して踊るための新しい音楽間距離フレームワークBailandoを提案する。
本稿では,音楽に忠実な流麗なダンスにユニットを構成するアクタ批判型生成事前学習変換器(GPT)を紹介する。
提案するフレームワークは,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T13:06:43Z) - MetaDance: Few-shot Dancing Video Retargeting via Temporal-aware
Meta-learning [51.78302763617991]
ダンスビデオは、ソースビデオからターゲット人物にダンスの動きを転送するビデオを合成することを目的としている。
従来の作業では、パーソナライズされたモデルをトレーニングするために、数千フレームのターゲットの人の数分間のビデオを収集する必要があります。
最近の研究は、数枚のフレームを利用して、目に見えない人のビデオを合成することを学ぶ、数発のダンスビデオに取り組みました。
論文 参考訳(メタデータ) (2022-01-13T09:34:20Z) - Semi-Supervised Learning for In-Game Expert-Level Music-to-Dance
Translation [0.0]
近年のロールプレイングゲームにおいて,音楽間翻訳は強力な機能である。
我々は、振付理論に基づいて、翻訳問題を断片的なダンスフレーズ検索問題として再定式化する。
本手法は多種多様な音楽スタイルにまたがって一般化し,ゲームプレイヤのエキスパートレベルの振付に成功している。
論文 参考訳(メタデータ) (2020-09-27T07:08:04Z) - DanceIt: Music-inspired Dancing Video Synthesis [38.87762996956861]
本稿では,コンピュータビジョンシステム内での人間関係のこのような能力の再現を提案する。
提案システムは3つのモジュールから構成される。
生成されたダンスビデオは、音楽の内容とリズムにマッチします。
論文 参考訳(メタデータ) (2020-09-17T02:29:13Z) - Learning to Generate Diverse Dance Motions with Transformer [67.43270523386185]
ダンス・モーション・シンセサイザーのための完全なシステムを提案する。
大規模なダンスモーションデータセットはYouTubeビデオから作成される。
新たな2ストリームモーショントランス生成モデルでは、高い柔軟性で動作シーケンスを生成することができる。
論文 参考訳(メタデータ) (2020-08-18T22:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。