論文の概要: Style Transfer for 2D Talking Head Animation
- arxiv url: http://arxiv.org/abs/2303.09799v1
- Date: Fri, 17 Mar 2023 07:02:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 15:32:53.585002
- Title: Style Transfer for 2D Talking Head Animation
- Title(参考訳): 2次元トーキングヘッドアニメーションのためのスタイル転送
- Authors: Trong-Thang Pham, Nhat Le, Tuong Do, Hung Nguyen, Erman Tjiputra,
Quang D. Tran, Anh Nguyen
- Abstract要約: 本稿では,学習可能なスタイル参照を用いた対話型ヘッドアニメーション生成手法を提案する。
本フレームワークは,1つの入力画像とオーディオストリームに基づいて,2次元音声ヘッドアニメーションを再構成することができる。
- 参考スコア(独自算出の注目度): 11.740847190449314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-driven talking head animation is a challenging research topic with many
real-world applications. Recent works have focused on creating photo-realistic
2D animation, while learning different talking or singing styles remains an
open problem. In this paper, we present a new method to generate talking head
animation with learnable style references. Given a set of style reference
frames, our framework can reconstruct 2D talking head animation based on a
single input image and an audio stream. Our method first produces facial
landmarks motion from the audio stream and constructs the intermediate style
patterns from the style reference images. We then feed both outputs into a
style-aware image generator to generate the photo-realistic and fidelity 2D
animation. In practice, our framework can extract the style information of a
specific character and transfer it to any new static image for talking head
animation. The intensive experimental results show that our method achieves
better results than recent state-of-the-art approaches qualitatively and
quantitatively.
- Abstract(参考訳): 音声駆動音声ヘッドアニメーションは多くの現実世界のアプリケーションで難しい研究トピックである。
最近の作品では、写真リアリスティックな2Dアニメーションの作成に焦点が当てられているが、異なる話し方や歌唱スタイルを学ぶことは未解決の問題である。
本稿では,学習可能なスタイル参照を用いた対話型ヘッドアニメーション生成手法を提案する。
スタイル参照フレームのセットが与えられた場合、このフレームワークは、単一の入力画像とオーディオストリームに基づいて、2D音声ヘッドアニメーションを再構成することができる。
提案手法はまず音声ストリームから顔のランドマークの動きを生成し,スタイル参照画像から中間スタイルパターンを構築する。
そして、両方の出力をスタイル対応の画像生成器に入力し、写真リアルで忠実な2Dアニメーションを生成する。
実際に,本フレームワークは,特定の文字のスタイル情報を抽出し,対話型ヘッドアニメーションのための任意の静止画像に転送することができる。
集中実験の結果,最近の最先端手法よりも質的,定量的に優れた結果が得られた。
関連論文リスト
- FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations [65.64014682930164]
スケッチアニメーションは、単純なフリップブックの落書きからプロのスタジオプロダクションまで、ビジュアルなストーリーテリングのための強力な媒体を提供する。
FlipSketchは、フリップブックアニメーションの魔法を復活させるシステムです。
論文 参考訳(メタデータ) (2024-11-16T14:53:03Z) - Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T01:49:42Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - Unsupervised Learning of Style-Aware Facial Animation from Real Acting
Performances [3.95944314850151]
本稿では, ブレンド形状, 動的テクスチャ, ニューラルレンダリングに基づく写真リアルな頭部モデルのテキスト/音声駆動アニメーションのための新しい手法を提案する。
本手法は,テキストや音声をアニメーションパラメータの列に変換する条件付きCNNに基づいている。
リアルなリアルタイムレンダリングのために、私たちは、改良された色と前景マットを演算することで、ピクセル化ベースのレンダリングを洗練するU-Netを訓練します。
論文 参考訳(メタデータ) (2023-06-16T17:58:04Z) - StyleTalk: One-shot Talking Head Generation with Controllable Speaking
Styles [43.12918949398099]
ワンショットスタイル制御可能な音声顔生成フレームワークを提案する。
任意の参照音声ビデオから話し方を得る。
それから、ワンショットのポートレートを駆動して、レファレンスな話し方と、別の音声で話す。
論文 参考訳(メタデータ) (2023-01-03T13:16:24Z) - Language-Guided Face Animation by Recurrent StyleGAN-based Generator [87.56260982475564]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。
本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文 参考訳(メタデータ) (2022-08-11T02:57:30Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。
この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文 参考訳(メタデータ) (2020-04-27T17:56:15Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。