論文の概要: MusicFace: Music-driven Expressive Singing Face Synthesis
- arxiv url: http://arxiv.org/abs/2303.14044v1
- Date: Fri, 24 Mar 2023 14:51:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 14:11:09.636713
- Title: MusicFace: Music-driven Expressive Singing Face Synthesis
- Title(参考訳): musicface:音楽駆動型表現型歌唱顔合成
- Authors: Pengfei Liu, Wenjin Deng, Hengda Li, Jintai Wang, Yinglin Zheng, Yiwei
Ding, Xiaohu Guo, and Ming Zeng
- Abstract要約: 音楽信号によって駆動される鮮明でリアルな歌声顔の合成法を提案する。
人間の声と背景音楽の混在した情報が音楽聴取の共通信号に混在していることから,この課題に対処するためのデカップリング・アンド・フューズ・ストラテジーを設計する。
提案手法は,定性的かつ定量的に,最先端の手法よりも優れた鮮やかな歌声面を合成できる。
- 参考スコア(独自算出の注目度): 21.00931950816313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is still an interesting and challenging problem to synthesize a vivid and
realistic singing face driven by music signal. In this paper, we present a
method for this task with natural motions of the lip, facial expression, head
pose, and eye states. Due to the coupling of the mixed information of human
voice and background music in common signals of music audio, we design a
decouple-and-fuse strategy to tackle the challenge. We first decompose the
input music audio into human voice stream and background music stream. Due to
the implicit and complicated correlation between the two-stream input signals
and the dynamics of the facial expressions, head motions and eye states, we
model their relationship with an attention scheme, where the effects of the two
streams are fused seamlessly. Furthermore, to improve the expressiveness of the
generated results, we propose to decompose head movements generation into speed
generation and direction generation, and decompose eye states generation into
the short-time eye blinking generation and the long-time eye closing generation
to model them separately. We also build a novel SingingFace Dataset to support
the training and evaluation of this task, and to facilitate future works on
this topic. Extensive experiments and user study show that our proposed method
is capable of synthesizing vivid singing face, which is better than
state-of-the-art methods qualitatively and quantitatively.
- Abstract(参考訳): 音楽信号による鮮明でリアルな歌声の表情を合成することは、いまだに興味深く難しい問題である。
本稿では,唇の自然な動き,表情,頭部のポーズ,眼の状態といった課題について述べる。
人間の声と背景音楽の混合情報を音楽音声の共通信号に結合させることにより,課題に取り組むための分離・融合戦略を考案する。
まず入力された音楽音声を人間の音声ストリームとバックグラウンド音楽ストリームに分解する。
2つのストリームの入力信号と表情のダイナミクス、頭部の動き、眼の状態との暗黙的かつ複雑な相関関係から、それらの関係を注意スキームでモデル化し、2つのストリームの効果をシームレスに融合させる。
さらに、生成した結果の表現性を向上するために、頭部運動生成を速度生成と方向生成に分解し、眼状態生成を短時間点眼生成と長時間点眼生成に分解してモデル化することを提案する。
また,この課題の訓練と評価を支援する新たな歌唱表情データセットを構築し,今後の課題への取り組みを促進する。
広範囲にわたる実験とユーザ研究により,提案手法は定性的,定量的に実写的な歌唱表情を合成できることがわかった。
関連論文リスト
- EMO2: End-Effector Guided Audio-Driven Avatar Video Generation [17.816939983301474]
本稿では,表現力の高い表情と手の動きを同時に生成できる新しい音声駆動音声ヘッド手法を提案する。
第1段階では、音声信号と手の動きの強い相関を利用して、音声入力から直接手振りを生成する。
第2段階では、拡散モデルを用いてビデオフレームを合成し、第1段階で生成されたポーズを取り入れ、現実的な表情と身体の動きを生成する。
論文 参考訳(メタデータ) (2025-01-18T07:51:29Z) - TalkingEyes: Pluralistic Speech-Driven 3D Eye Gaze Animation [15.249802238430908]
音声と調和して多様な3次元視線の動きを生成できる新しいデータ駆動方式を提案する。
私たちのTalkingEyesは、音声駆動の3D顔の動き生成装置と統合されており、音声から視線の動き、目まわし、頭部の動き、顔の動きを総合的に合成することができる。
論文 参考訳(メタデータ) (2025-01-17T02:27:59Z) - JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation [24.2065254076207]
共同表現と音声誘導による発話顔生成のための新しい手法を提案する。
提案手法は,高忠実度音声映像を合成し,最先端の表情伝達を実現する。
論文 参考訳(メタデータ) (2024-09-18T17:18:13Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute
Learning [23.14865405847467]
本稿では,音声信号を入力とし,短いターゲット映像クリップを参照として,話し顔を生成する手法を提案する。
本発明の方法は、入力された音声信号と同期した自然な唇の動き、頭部ポーズ、および目の点滅で、対象の顔の写実的な映像を合成する。
実験結果とユーザスタディにより,本手法は,最先端の手法よりも優れた品質で,現実的な音声ビデオを生成することができることが示された。
論文 参考訳(メタデータ) (2021-08-18T02:10:26Z) - Audio-Driven Emotional Video Portraits [79.95687903497354]
Emotional Video Portraits(EVP)は、オーディオによって駆動される鮮やかな感情的なダイナミクスで高品質のビデオポートレートを合成するシステムです。
具体的には,音声を2つの分離空間に分解するクロスリコンストラクテッド感情不等角化手法を提案する。
ゆがんだ特徴によって、動的2D感情的な顔のランドマークは推定することができます。
次に,最終的な高品質映像画像を生成するために,ターゲット適応型顔合成手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T13:37:13Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。