論文の概要: Dynamic Neural Textures: Generating Talking-Face Videos with
Continuously Controllable Expressions
- arxiv url: http://arxiv.org/abs/2204.06180v1
- Date: Wed, 13 Apr 2022 05:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 14:06:25.015979
- Title: Dynamic Neural Textures: Generating Talking-Face Videos with
Continuously Controllable Expressions
- Title(参考訳): 動的ニューラルテクスチャ:連続制御可能な表現による対話型ビデオの生成
- Authors: Zipeng Ye and Zhiyao Sun and Yu-Hui Wen and Yanan Sun and Tian Lv and
Ran Yi and Yong-Jin Liu
- Abstract要約: 本稿では,リアルタイムに連続的に制御可能な表情で音声音声を生成する手法を提案する。
本手法は,中程度の解像度の顔形状とは対照的に,ほとんどの表現情報はテクスチャ内にある。
- 参考スコア(独自算出の注目度): 29.33162766838097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, talking-face video generation has received considerable attention.
So far most methods generate results with neutral expressions or expressions
that are implicitly determined by neural networks in an uncontrollable way. In
this paper, we propose a method to generate talking-face videos with
continuously controllable expressions in real-time. Our method is based on an
important observation: In contrast to facial geometry of moderate resolution,
most expression information lies in textures. Then we make use of neural
textures to generate high-quality talking face videos and design a novel neural
network that can generate neural textures for image frames (which we called
dynamic neural textures) based on the input expression and continuous intensity
expression coding (CIEC). Our method uses 3DMM as a 3D model to sample the
dynamic neural texture. The 3DMM does not cover the teeth area, so we propose a
teeth submodule to complete the details in teeth. Results and an ablation study
show the effectiveness of our method in generating high-quality talking-face
videos with continuously controllable expressions. We also set up four baseline
methods by combining existing representative methods and compare them with our
method. Experimental results including a user study show that our method has
the best performance.
- Abstract(参考訳): 近年,対話型ビデオ生成が注目されている。
これまでのところ、ほとんどの手法はニューラルネットによって制御不能な方法で暗黙的に決定される中性的な表現や表現で結果を生成する。
本稿では,リアルタイムに連続的に表現を制御可能な対話型ビデオを生成する手法を提案する。
本手法は,中程度の解像度の顔形状とは対照的に,ほとんどの表現情報はテクスチャ内にある。
次に、入力式と連続強度式符号化(ciec)に基づいて、ニューラルテクスチャを用いて、高品質なトーキングフェイスビデオを生成し、画像フレーム(動的ニューラルテクスチャと呼ばれる)のニューラルテクスチャを生成するニューラルニューラルネットワークを設計する。
本手法は3次元モデルとして3DMMを用いて動的神経テクスチャをサンプリングする。
3dmmは歯の面積を包含しないので,歯の細部を完備する歯のサブモジュールを提案する。
結果とアブレーション実験により,連続的に表現を制御可能な高品質な音声合成法の有効性が示された。
また,提案手法と既存代表法を組み合わせた4つのベースライン手法を構築した。
ユーザスタディを含む実験結果から,本手法が最も優れた性能を示す。
関連論文リスト
- Scene123: One Prompt to 3D Scene Generation via Video-Assisted and Consistency-Enhanced MAE [22.072200443502457]
Scene123は3次元シーン生成モデルであり,映像生成フレームワークを通じて現実性と多様性を保証する。
具体的には、入力画像(またはテキストから生成された画像)をワープして、隣接したビューをシミュレートし、MAEモデルで見えない領域を埋める。
生成したビューの細部やテクスチャの忠実度をさらに高めるため,映像生成モデルを用いて入力画像から得られた画像に対して,GANベースのロスを用いた。
論文 参考訳(メタデータ) (2024-08-10T08:09:57Z) - 3D Facial Expressions through Analysis-by-Neural-Synthesis [30.2749903946587]
SMIRK(Spatial Modeling for Image-based Reconstruction of Kinesics)は、画像から表現力のある3次元顔を忠実に再構築する。
既存の手法では,自己指導型トレーニングの定式化における欠点と,訓練画像における表現の多様性の欠如の2つの重要な限界を識別する。
我々の質的,定量的,特に知覚的評価は、SMIRKが正確な表現再構成における新しい最先端技術を実現することを証明している。
論文 参考訳(メタデータ) (2024-04-05T14:00:07Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - 4D Facial Expression Diffusion Model [3.507793603897647]
本稿では,3次元表情系列を生成するための生成フレームワークを提案する。
これは、一連の3Dランドマークシーケンスでトレーニングされた生成モデルを学ぶことと、生成されたランドマークシーケンスによって駆動される入力された顔メッシュの3Dメッシュシーケンスを生成することの2つのタスクで構成されている。
実験により,本モデルは比較的小さなデータセットからのみ,現実的で質の高い表現を生成することができ,最先端の手法よりも改善されていることがわかった。
論文 参考訳(メタデータ) (2023-03-29T11:50:21Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - ClipFace: Text-guided Editing of Textured 3D Morphable Models [33.83015491013442]
ClipFaceはテクスチャ化された顔の3次元形態素モデルのテキスト誘導編集のための新しい自己教師型アプローチである。
ユーザフレンドリーな言語プロンプトを用いて表現の制御と3D顔の出現を可能にする。
我々のモデルは、事前訓練されたCLIPモデルに基づいて、差別化可能なレンダリングと損失を利用して、自己教師型で訓練される。
論文 参考訳(メタデータ) (2022-12-02T19:01:08Z) - Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。
提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文 参考訳(メタデータ) (2021-08-30T19:45:07Z) - Fast-GANFIT: Generative Adversarial Network for High Fidelity 3D Face
Reconstruction [76.1612334630256]
我々は、GAN(Generative Adversarial Networks)とDCNN(Deep Convolutional Neural Networks)の力を利用して、単一画像から顔のテクスチャと形状を再構築する。
3次元顔再構成を保存したフォトリアリスティックでアイデンティティに優れた結果を示し, 初めて, 高精度な顔テクスチャ再構成を実現する。
論文 参考訳(メタデータ) (2021-05-16T16:35:44Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Neural Human Video Rendering by Learning Dynamic Textures and
Rendering-to-Video Translation [99.64565200170897]
本研究では,2次元スクリーン空間に人体を埋め込むことで,時間的コヒーレントな微細な細部を学習することで,人間の映像合成手法を提案する。
我々は,人間の再現やモノクロ映像からの新たなビュー合成などのアプローチの適用例を示し,質的にも定量的にも,芸術の状態を著しく改善した。
論文 参考訳(メタデータ) (2020-01-14T18:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。