論文の概要: Learning Audio-Driven Viseme Dynamics for 3D Face Animation
- arxiv url: http://arxiv.org/abs/2301.06059v1
- Date: Sun, 15 Jan 2023 09:55:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 17:31:51.904945
- Title: Learning Audio-Driven Viseme Dynamics for 3D Face Animation
- Title(参考訳): 3d顔アニメーションのための音声駆動ビセームダイナミクスの学習
- Authors: Linchao Bao, Haoxian Zhang, Yue Qian, Tangli Xue, Changhai Chen,
Xuefei Zhe, Di Kang
- Abstract要約: 入力音声からリアルな唇同期3Dアニメーションを生成できる,新しい音声駆動型顔アニメーション手法を提案する。
提案手法は,音声ビデオからビセメダイナミクスを学習し,アニメーターフレンドリーなビセメ曲線を生成し,多言語音声入力をサポートする。
- 参考スコア(独自算出の注目度): 17.626644507523963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel audio-driven facial animation approach that can generate
realistic lip-synchronized 3D facial animations from the input audio. Our
approach learns viseme dynamics from speech videos, produces animator-friendly
viseme curves, and supports multilingual speech inputs. The core of our
approach is a novel parametric viseme fitting algorithm that utilizes phoneme
priors to extract viseme parameters from speech videos. With the guidance of
phonemes, the extracted viseme curves can better correlate with phonemes, thus
more controllable and friendly to animators. To support multilingual speech
inputs and generalizability to unseen voices, we take advantage of deep audio
feature models pretrained on multiple languages to learn the mapping from audio
to viseme curves. Our audio-to-curves mapping achieves state-of-the-art
performance even when the input audio suffers from distortions of volume,
pitch, speed, or noise. Lastly, a viseme scanning approach for acquiring
high-fidelity viseme assets is presented for efficient speech animation
production. We show that the predicted viseme curves can be applied to
different viseme-rigged characters to yield various personalized animations
with realistic and natural facial motions. Our approach is artist-friendly and
can be easily integrated into typical animation production workflows including
blendshape or bone based animation.
- Abstract(参考訳): 入力音声からリアルな唇同期3次元顔アニメーションを生成できる,新しい音声駆動型顔アニメーション手法を提案する。
提案手法は,音声ビデオからビセメダイナミクスを学習し,アニメーターフレンドリーなビセメ曲線を生成し,多言語音声入力をサポートする。
このアプローチの核心は,音声ビデオからvisemeパラメータを抽出するためにphoneme priorsを利用する新しいパラメトリックvisemeフィッティングアルゴリズムである。
音素の誘導により、抽出されたビセメ曲線は音素と相関しやすくなり、アニメーターに対してより制御可能で親しみやすい。
多言語音声入力と未知音声への一般化性を実現するため,複数言語で事前訓練されたディープオーディオ特徴モデルを利用して,音声からビセメ曲線へのマッピングを学習する。
入力音声が音量、ピッチ、速度、ノイズの歪みに苦しむ場合でも、音声から曲線へのマッピングは最先端のパフォーマンスを実現します。
最後に,高忠実度ビセム資産獲得のためのビセムスキャン手法を,効率的な音声アニメーション制作のために提案する。
予測したビセメ曲線を異なるビセメゴット文字に適用することで、リアルな顔の動きや自然な動きで様々なパーソナライズされたアニメーションが得られることを示す。
私たちのアプローチはアーティストフレンドリーで、blendshapeやボーンベースのアニメーションといった典型的なアニメーション制作ワークフローに簡単に統合できます。
関連論文リスト
- LinguaLinker: Audio-Driven Portraits Animation with Implicit Facial Control Enhancement [8.973545189395953]
本研究では,拡散に基づく手法による視覚的に魅力的な時間同期アニメーションの作成に焦点をあてる。
我々は音声の特徴を別々に処理し、画像の出自に関わらず、口、目、頭の動きを暗黙的に制御する対応する制御ゲートを導出する。
アニメーションポートレートの忠実さ,リップシンクの正確さ,および本手法により達成された適切な動作変化の大幅な改善により,任意の言語でポートレートをアニメーションするための汎用ツールとなった。
論文 参考訳(メタデータ) (2024-07-26T08:30:06Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T01:49:42Z) - 3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing [22.30870274645442]
3DiFACEは、音声による顔のアニメーションと編集をパーソナライズする新しい方法である。
提案手法は,既存の最先端技術より優れ,忠実度と多様性が向上した音声駆動型アニメーションを実現する。
論文 参考訳(メタデータ) (2023-12-01T19:01:05Z) - FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation
Synthesis Using Self-Supervised Speech Representation Learning [0.0]
FaceXHuBERTは、テキストレス音声駆動の3D顔アニメーション生成方法である。
背景雑音に対して非常に頑丈で、様々な状況で録音された音声を処理できる。
アニメーションの写実性に関しては78%の精度で優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-09T17:05:19Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Language-Guided Face Animation by Recurrent StyleGAN-based Generator [87.56260982475564]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。
本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文 参考訳(メタデータ) (2022-08-11T02:57:30Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。