論文の概要: Emotion-Controllable Generalized Talking Face Generation
- arxiv url: http://arxiv.org/abs/2205.01155v1
- Date: Mon, 2 May 2022 18:41:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 13:36:54.291822
- Title: Emotion-Controllable Generalized Talking Face Generation
- Title(参考訳): 感情制御可能な一般化対話顔生成
- Authors: Sanjana Sinha, Sandika Biswas, Ravindra Yadav and Brojeshwar Bhowmick
- Abstract要約: 顔形状を意識した感情音声生成手法を提案する。
本手法は,中性感情における対象の個人像を1枚だけ微調整することで,任意の顔に適応することができる。
- 参考スコア(独自算出の注目度): 6.22276955954213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the significant progress in recent years, very few of the AI-based
talking face generation methods attempt to render natural emotions. Moreover,
the scope of the methods is majorly limited to the characteristics of the
training dataset, hence they fail to generalize to arbitrary unseen faces. In
this paper, we propose a one-shot facial geometry-aware emotional talking face
generation method that can generalize to arbitrary faces. We propose a graph
convolutional neural network that uses speech content feature, along with an
independent emotion input to generate emotion and speech-induced motion on
facial geometry-aware landmark representation. This representation is further
used in our optical flow-guided texture generation network for producing the
texture. We propose a two-branch texture generation network, with motion and
texture branches designed to consider the motion and texture content
independently. Compared to the previous emotion talking face methods, our
method can adapt to arbitrary faces captured in-the-wild by fine-tuning with
only a single image of the target identity in neutral emotion.
- Abstract(参考訳): 近年の大きな進歩にもかかわらず、自然な感情を表現しようとするAIベースの会話顔生成手法はほとんどない。
さらに,手法の範囲はトレーニングデータセットの特性に大きく制限されているため,任意の未知の顔への一般化に失敗する。
本稿では,任意の顔に一般化できる一発顔形状認識型感情対話顔生成法を提案する。
本稿では,音声コンテンツ機能と独立した感情入力を併用したグラフ畳み込みニューラルネットワークを提案する。
この表現は、テクスチャを製造するための光学式フローガイドテクスチャ生成ネットワークでさらに使用される。
本研究では,動きとテクスチャを独立に考慮し,動きとテクスチャの分岐を考慮した2分岐テクスチャ生成ネットワークを提案する。
従来の感情対話法と比較して,中性感情における対象アイデンティティの1つのイメージのみを微調整することで,任意の顔に適応できる。
関連論文リスト
- FlowVQTalker: High-Quality Emotional Talking Face Generation through
Normalizing Flow and Quantization [4.978754943172958]
本稿では,正規化フローとベクトル量子化モデルを用いて感情的な発話顔を生成することを提案する。
具体的には、顔の感情のダイナミクスを多感情階級の潜在空間にエンコードするフローベース係数生成器を開発する。
設計したベクトル量子化画像生成器は、コードクエリータスクとして表現力のある顔画像を作成する。
論文 参考訳(メタデータ) (2024-03-11T01:58:04Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - High-fidelity Generalized Emotional Talking Face Generation with
Multi-modal Emotion Space Learning [43.09015109281053]
よりフレキシブルで汎用的な顔生成フレームワークを提案する。
具体的には、テキストプロンプトで感情スタイルを補完し、テキスト、画像、音声の感情のモダリティを統一された空間に埋め込むためにアラインド・マルチモーダル・感情エンコーダを使用する。
感情条件と音声シーケンスを構造表現に接続する感情認識型オーディオ-to-3DMM変換器を提案する。
論文 参考訳(メタデータ) (2023-05-04T05:59:34Z) - Emotionally Enhanced Talking Face Generation [52.07451348895041]
我々は、適切な表現でビデオを生成するために、カテゴリー的感情に基づく話し顔生成フレームワークを構築した。
モデルが任意のアイデンティティ、感情、言語に適応できることを示します。
提案するフレームワークはユーザフレンドリーなWebインターフェースを備えており,感情を伴う顔生成をリアルタイムに行うことができる。
論文 参考訳(メタデータ) (2023-03-21T02:33:27Z) - PERI: Part Aware Emotion Recognition In The Wild [4.206175795966693]
本稿では視覚的特徴を用いた感情認識に焦点を当てる。
身体のポーズと顔のランドマークの両方から生成されたマスクを用いて、入力画像からキー領域を抽出し、部分認識空間(PAS)画像を作成する。
野生のEMOTICデータセットで公開されている結果について報告する。
論文 参考訳(メタデータ) (2022-10-18T20:01:40Z) - Emotion Separation and Recognition from a Facial Expression by
Generating the Poker Face with Vision Transformers [57.67586172996843]
静的な顔画像から外乱非依存の感情を分離し認識するための新しいFERモデルであるポーカー・フェイス・ビジョン・トランスフォーマー(PF-ViT)を提案する。
PF-ViTは、ペア画像なしで対応するポーカーフェイスを生成する。
論文 参考訳(メタデータ) (2022-07-22T13:39:06Z) - EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware
Motion Model [32.19539143308341]
本研究では,感情認識運動モデル(EAMM)を提案する。
両モジュールの結果を組み込むことで,任意の被験者に対して良好な話し声を生成できる。
論文 参考訳(メタデータ) (2022-05-30T17:39:45Z) - EMOCA: Emotion Driven Monocular Face Capture and Animation [59.15004328155593]
本稿では,学習中の感情の深層的一貫性を損なうことによって,再構成された3次元表現が入力画像に表現された表現と一致することを確実にする。
In-the-wild emotion recognitionのタスクでは、人間の行動を分析する上での3D幾何の価値を強調しながら、最も優れた画像ベースの手法と同等に幾何学的アプローチを実践しています。
論文 参考訳(メタデータ) (2022-04-24T15:58:35Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z) - LandmarkGAN: Synthesizing Faces from Landmarks [43.53204737135101]
顔のランドマークに基づいた顔合成を入力として行う新しい手法であるLandmarkGANについて述べる。
提案手法では,顔のランドマークの集合を異なる対象の新たな顔に変換することができるが,顔の表情や向きは同一である。
論文 参考訳(メタデータ) (2020-10-31T13:27:21Z) - Facial Expression Editing with Continuous Emotion Labels [76.36392210528105]
深層生成モデルは、自動表情編集の分野で素晴らしい成果を上げている。
連続した2次元の感情ラベルに従って顔画像の表情を操作できるモデルを提案する。
論文 参考訳(メタデータ) (2020-06-22T13:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。