論文の概要: SingingHead: A Large-scale 4D Dataset for Singing Head Animation
- arxiv url: http://arxiv.org/abs/2312.04369v2
- Date: Fri, 8 Dec 2023 08:00:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 12:28:42.025982
- Title: SingingHead: A Large-scale 4D Dataset for Singing Head Animation
- Title(参考訳): SingingHead: 頭部アニメーションのための大規模4Dデータセット
- Authors: Sijing Wu, Yunhao Li, Weitian Zhang, Jun Jia, Yucheng Zhu, Yichao Yan,
Guangtao Zhai
- Abstract要約: SingingHeadは,76人の個人と8種類の音楽から,27時間以上の同期歌唱ビデオ,3D顔の動き,歌唱音声,バックグラウンド音楽を収集する。
歌唱音声駆動の3D歌唱ヘッドアニメーションと2D歌唱ポートレートビデオ合成の両方を実現するために,UniSingerという統一的な歌唱顔アニメーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.26742089012621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Singing, as a common facial movement second only to talking, can be regarded
as a universal language across ethnicities and cultures, plays an important
role in emotional communication, art, and entertainment. However, it is often
overlooked in the field of audio-driven facial animation due to the lack of
singing head datasets and the domain gap between singing and talking in rhythm
and amplitude. To this end, we collect a high-quality large-scale singing head
dataset, SingingHead, which consists of more than 27 hours of synchronized
singing video, 3D facial motion, singing audio, and background music from 76
individuals and 8 types of music. Along with the SingingHead dataset, we argue
that 3D and 2D facial animation tasks can be solved together, and propose a
unified singing facial animation framework named UniSinger to achieve both
singing audio-driven 3D singing head animation and 2D singing portrait video
synthesis. Extensive comparative experiments with both SOTA 3D facial animation
and 2D portrait animation methods demonstrate the necessity of singing-specific
datasets in singing head animation tasks and the promising performance of our
unified facial animation framework.
- Abstract(参考訳): 歌唱は、話すことに次ぐ共通の顔の動きとして、民族や文化にまたがる普遍言語と見なされ、感情的なコミュニケーション、芸術、娯楽において重要な役割を果たしている。
しかし、歌唱ヘッドデータセットの欠如や、リズムや振幅における歌唱と話しのドメインギャップが原因で、音声による顔のアニメーションの分野では見落とされがちである。
この目的のために,76人の個人と8種類の音楽から27時間以上の同期歌唱ビデオ,3D顔の動き,歌唱音声,バックグラウンド音楽からなる,高品質な大規模歌唱ヘッドデータセットであるSingingHeadを収集した。
歌唱ヘッドデータセットとともに,3次元と2次元の表情アニメーションタスクを組み合わせることで,歌唱音声駆動3次元歌唱ヘッドアニメーションと2次元歌唱ポートレートビデオ合成の両方を実現するための統一歌唱顔アニメーションフレームワークunisingerを提案する。
SOTA 3Dの顔アニメーションと2Dのポートレートアニメーションによる大規模な比較実験は、歌唱ヘッドアニメーションタスクにおける歌唱固有のデータセットの必要性と、我々の統合された顔アニメーションフレームワークの有望な性能を示す。
関連論文リスト
- MMHead: Towards Fine-grained Multi-modal 3D Facial Animation [68.04052669266174]
大規模なマルチモーダル3次元顔アニメーションデータセットMMHeadを構築した。
MMHeadは、49時間の3D顔の動きシーケンス、音声、リッチな階層的なテキストアノテーションで構成されている。
MMHeadデータセットに基づいて,テキストによる3次元対話ヘッドアニメーションとテキストから3次元の顔の動き生成という,2つの新しいタスクのベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-10T09:37:01Z) - GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks [52.30565320125514]
GTSingerは、グローバルで、多技術で、無料で使える、高品質な歌唱コーパスで、リアルな音楽スコアがある。
高品質な歌声を80.59時間収集し、最大の歌唱データセットを形成する。
我々は,技術制御可能な歌唱音声合成,技術認識,スタイル伝達,音声歌唱変換の4つのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-09-20T18:18:14Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - 3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing [22.30870274645442]
3DiFACEは、音声による顔のアニメーションと編集をパーソナライズする新しい方法である。
提案手法は,既存の最先端技術より優れ,忠実度と多様性が向上した音声駆動型アニメーションを実現する。
論文 参考訳(メタデータ) (2023-12-01T19:01:05Z) - Audio-Driven 3D Facial Animation from In-the-Wild Videos [16.76533748243908]
任意のオーディオクリップが与えられたとき、オーディオ駆動の3D顔アニメーションは、ライフスタイルの唇の動きと3Dヘッドのための表情を生成することを目的としている。
既存の方法は、通常、限られた数のオーディオ3Dスキャンペアを含む限られたパブリックな3Dデータセットを使用してモデルをトレーニングすることに依存する。
そこで本研究では,3次元顔アニメーションモデルをトレーニングするために,この2次元対話ヘッドビデオを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-20T13:53:05Z) - MMFace4D: A Large-Scale Multi-Modal 4D Face Dataset for Audio-Driven 3D
Face Animation [16.989858343787365]
MMFace4Dは431のアイデンティティ,35,904のシーケンス,390万フレームからなる大規模マルチモーダル4D(3D)顔データセットである。
MMFace4Dは、15歳から68歳までのアクターを包含し、0.7秒から11.4秒の文を記録できる、非常に多様な主題とコーパスのセットである。
我々は、音声駆動型3D顔アニメーションのための非自己回帰フレームワークを構築する。我々のフレームワークは、顔アニメーションの地域的・複合的性質を考察し、現代的最先端アプローチを質的に超越している。
論文 参考訳(メタデータ) (2023-03-17T06:43:08Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。