論文の概要: Neural Emotion Director: Speech-preserving semantic control of facial
expressions in "in-the-wild" videos
- arxiv url: http://arxiv.org/abs/2112.00585v1
- Date: Wed, 1 Dec 2021 15:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 15:53:57.771765
- Title: Neural Emotion Director: Speech-preserving semantic control of facial
expressions in "in-the-wild" videos
- Title(参考訳): neural emotion director: "in-the-wild"ビデオにおける表情の音声保存意味制御
- Authors: Foivos Paraperas Papantoniou, Panagiotis P. Filntisis, Petros Maragos,
Anastasios Roussos
- Abstract要約: In-the-wild」ビデオにおいて,アクターの感情状態をリアルに操作するための新しい深層学習手法を提案する。
提案手法は,頭部のポーズや表情から顔のアイデンティティを確実に切り離すことのできる,入力シーンにおけるアクターのパラメトリックな3次元顔表現に基づく。
次に、新しいディープドメイン翻訳フレームワークを使用し、顔の表情を一貫した、そして妥当な方法で変更し、そのダイナミクスを考慮に入れます。
- 参考スコア(独自算出の注目度): 31.746152261362777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a novel deep learning method for photo-realistic
manipulation of the emotional state of actors in "in-the-wild" videos. The
proposed method is based on a parametric 3D face representation of the actor in
the input scene that offers a reliable disentanglement of the facial identity
from the head pose and facial expressions. It then uses a novel deep domain
translation framework that alters the facial expressions in a consistent and
plausible manner, taking into account their dynamics. Finally, the altered
facial expressions are used to photo-realistically manipulate the facial region
in the input scene based on an especially-designed neural face renderer. To the
best of our knowledge, our method is the first to be capable of controlling the
actor's facial expressions by even using as a sole input the semantic labels of
the manipulated emotions, while at the same time preserving the speech-related
lip movements. We conduct extensive qualitative and quantitative evaluations
and comparisons, which demonstrate the effectiveness of our approach and the
especially promising results that we obtain. Our method opens a plethora of new
possibilities for useful applications of neural rendering technologies, ranging
from movie post-production and video games to photo-realistic affective
avatars.
- Abstract(参考訳): 本稿では,映画「イン・ザ・ワイルド」ビデオにおいて,俳優の感情状態のフォトリアリスティックな操作を行うための深層学習手法を提案する。
提案手法は,頭部のポーズや表情から顔のアイデンティティを確実に切り離すことのできる,入力シーンにおけるアクターのパラメトリックな3次元顔表現に基づく。
次に、新しいディープドメイン翻訳フレームワークを使用し、顔の表情を一貫した、そして妥当な方法で変更し、そのダイナミクスを考慮に入れます。
最後に、変化した表情を用いて、特に設計されたニューラルフェイスレンダラーに基づいて、入力シーンの顔領域をフォトリアリスティックに操作する。
本手法は, 操作された感情の意味的ラベルを単独で入力するだけでなく, 発話に関連した唇運動を保ちながら, 俳優の表情を制御できる最初の手法である。
我々は、我々のアプローチの有効性と得られた特に有望な結果を示す、広範囲な質的、定量的な評価と比較を行う。
本手法は,映画ポストプロダクションやビデオゲーム,フォトリアリスティックな情緒的アバターなど,ニューラルレンダリング技術の有用な応用への新たな可能性を開く。
関連論文リスト
- GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - Knowledge-Enhanced Facial Expression Recognition with Emotional-to-Neutral Transformation [66.53435569574135]
既存の表情認識法は、通常、個別のラベルを使って訓練済みのビジュアルエンコーダを微調整する。
視覚言語モデルによって生成されるテキスト埋め込みの豊富な知識は、識別的表情表現を学ぶための有望な代替手段である。
感情-中性変換を用いた知識強化FER法を提案する。
論文 参考訳(メタデータ) (2024-09-13T07:28:57Z) - Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。
現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。
顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文 参考訳(メタデータ) (2024-07-25T18:29:48Z) - CSTalk: Correlation Supervised Speech-driven 3D Emotional Facial Animation Generation [13.27632316528572]
音声駆動の3D顔アニメーション技術は長年開発されてきたが、実用的応用には期待できない。
主な課題は、データ制限、唇のアライメント、表情の自然さである。
本稿では,顔の動きの異なる領域間の相関をモデル化し,生成モデルの訓練を監督し,現実的な表現を生成するCSTalkという手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T11:19:15Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - PERI: Part Aware Emotion Recognition In The Wild [4.206175795966693]
本稿では視覚的特徴を用いた感情認識に焦点を当てる。
身体のポーズと顔のランドマークの両方から生成されたマスクを用いて、入力画像からキー領域を抽出し、部分認識空間(PAS)画像を作成する。
野生のEMOTICデータセットで公開されている結果について報告する。
論文 参考訳(メタデータ) (2022-10-18T20:01:40Z) - Continuously Controllable Facial Expression Editing in Talking Face
Videos [34.83353695337335]
言語関連表現と感情関連表現はしばしば高結合である。
従来の画像から画像への変換手法は、我々のアプリケーションではうまく機能しない。
そこで本研究では,音声合成のための高品質な表情編集手法を提案する。
論文 参考訳(メタデータ) (2022-09-17T09:05:47Z) - Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers [57.1091606948826]
我々はこれらの課題に対処するため,ポーカー・フェイス・ビジョン・トランスフォーマー (PF-ViT) と呼ばれる新しいFERモデルを提案する。
PF-ViTは、対応するポーカーフェースを生成して、乱れを認識できない感情を静的な顔画像から分離し、認識することを目的としている。
PF-ViTはバニラビジョントランスフォーマーを使用し、そのコンポーネントは大規模な表情データセット上でMasked Autoencodeerとして事前トレーニングされている。
論文 参考訳(メタデータ) (2022-07-22T13:39:06Z) - Deep Semantic Manipulation of Facial Videos [5.048861360606916]
本稿では,ビデオにおける表情の写実的操作を行うための最初の方法を提案する。
本手法は,ニューラルレンダリングと3次元表情モデリングに基づくセマンティックビデオ操作を支援する。
提案手法は,3次元顔の形状と活動の歪んだ表現と推定に基づく。
論文 参考訳(メタデータ) (2021-11-15T16:55:16Z) - Real-time Facial Expression Recognition "In The Wild'' by Disentangling
3D Expression from Identity [6.974241731162878]
本稿では,1枚のRGB画像から人間の感情認識を行う新しい手法を提案する。
顔のダイナミックス、アイデンティティ、表情、外観、3Dポーズのバリエーションに富んだ大規模な顔ビデオデータセットを構築した。
提案するフレームワークは毎秒50フレームで動作し、3次元表現変動のパラメータを頑健に推定することができる。
論文 参考訳(メタデータ) (2020-05-12T01:32:55Z) - MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。
この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文 参考訳(メタデータ) (2020-04-27T17:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。