論文の概要: Emotion-Controllable Generalized Talking Face Generation
- arxiv url: http://arxiv.org/abs/2205.01155v1
- Date: Mon, 2 May 2022 18:41:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 13:36:54.291822
- Title: Emotion-Controllable Generalized Talking Face Generation
- Title(参考訳): 感情制御可能な一般化対話顔生成
- Authors: Sanjana Sinha, Sandika Biswas, Ravindra Yadav and Brojeshwar Bhowmick
- Abstract要約: 顔形状を意識した感情音声生成手法を提案する。
本手法は,中性感情における対象の個人像を1枚だけ微調整することで,任意の顔に適応することができる。
- 参考スコア(独自算出の注目度): 6.22276955954213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the significant progress in recent years, very few of the AI-based
talking face generation methods attempt to render natural emotions. Moreover,
the scope of the methods is majorly limited to the characteristics of the
training dataset, hence they fail to generalize to arbitrary unseen faces. In
this paper, we propose a one-shot facial geometry-aware emotional talking face
generation method that can generalize to arbitrary faces. We propose a graph
convolutional neural network that uses speech content feature, along with an
independent emotion input to generate emotion and speech-induced motion on
facial geometry-aware landmark representation. This representation is further
used in our optical flow-guided texture generation network for producing the
texture. We propose a two-branch texture generation network, with motion and
texture branches designed to consider the motion and texture content
independently. Compared to the previous emotion talking face methods, our
method can adapt to arbitrary faces captured in-the-wild by fine-tuning with
only a single image of the target identity in neutral emotion.
- Abstract(参考訳): 近年の大きな進歩にもかかわらず、自然な感情を表現しようとするAIベースの会話顔生成手法はほとんどない。
さらに,手法の範囲はトレーニングデータセットの特性に大きく制限されているため,任意の未知の顔への一般化に失敗する。
本稿では,任意の顔に一般化できる一発顔形状認識型感情対話顔生成法を提案する。
本稿では,音声コンテンツ機能と独立した感情入力を併用したグラフ畳み込みニューラルネットワークを提案する。
この表現は、テクスチャを製造するための光学式フローガイドテクスチャ生成ネットワークでさらに使用される。
本研究では,動きとテクスチャを独立に考慮し,動きとテクスチャの分岐を考慮した2分岐テクスチャ生成ネットワークを提案する。
従来の感情対話法と比較して,中性感情における対象アイデンティティの1つのイメージのみを微調整することで,任意の顔に適応できる。
関連論文リスト
- Knowledge-Enhanced Facial Expression Recognition with Emotional-to-Neutral Transformation [66.53435569574135]
既存の表情認識法は、通常、個別のラベルを使って訓練済みのビジュアルエンコーダを微調整する。
視覚言語モデルによって生成されるテキスト埋め込みの豊富な知識は、識別的表情表現を学ぶための有望な代替手段である。
感情-中性変換を用いた知識強化FER法を提案する。
論文 参考訳(メタデータ) (2024-09-13T07:28:57Z) - Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。
現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。
顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文 参考訳(メタデータ) (2024-07-25T18:29:48Z) - Emotional Conversation: Empowering Talking Faces with Cohesive Expression, Gaze and Pose Generation [12.044308738509402]
3次元顔のランドマークを中間変数として用いた2段階の音声駆動音声顔生成フレームワークを提案する。
このフレームワークは、自己指導型学習を通じて、表現、視線、感情との協調的なアライメントを実現する。
我々のモデルは、視覚的品質と感情的アライメントの両方において、最先端のパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2024-06-12T06:00:00Z) - CSTalk: Correlation Supervised Speech-driven 3D Emotional Facial Animation Generation [13.27632316528572]
音声駆動の3D顔アニメーション技術は長年開発されてきたが、実用的応用には期待できない。
主な課題は、データ制限、唇のアライメント、表情の自然さである。
本稿では,顔の動きの異なる領域間の相関をモデル化し,生成モデルの訓練を監督し,現実的な表現を生成するCSTalkという手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T11:19:15Z) - FlowVQTalker: High-Quality Emotional Talking Face Generation through Normalizing Flow and Quantization [4.429892245774265]
本稿では,正規化フローとベクトル量子化モデルを用いて感情的な発話顔を生成することを提案する。
具体的には、顔の感情のダイナミクスを多感情階級の潜在空間にエンコードするフローベース係数生成器を開発する。
設計したベクトル量子化画像生成器は、コードクエリータスクとして表現力のある顔画像を作成する。
論文 参考訳(メタデータ) (2024-03-11T01:58:04Z) - High-fidelity Generalized Emotional Talking Face Generation with
Multi-modal Emotion Space Learning [43.09015109281053]
よりフレキシブルで汎用的な顔生成フレームワークを提案する。
具体的には、テキストプロンプトで感情スタイルを補完し、テキスト、画像、音声の感情のモダリティを統一された空間に埋め込むためにアラインド・マルチモーダル・感情エンコーダを使用する。
感情条件と音声シーケンスを構造表現に接続する感情認識型オーディオ-to-3DMM変換器を提案する。
論文 参考訳(メタデータ) (2023-05-04T05:59:34Z) - Emotionally Enhanced Talking Face Generation [52.07451348895041]
我々は、適切な表現でビデオを生成するために、カテゴリー的感情に基づく話し顔生成フレームワークを構築した。
モデルが任意のアイデンティティ、感情、言語に適応できることを示します。
提案するフレームワークはユーザフレンドリーなWebインターフェースを備えており,感情を伴う顔生成をリアルタイムに行うことができる。
論文 参考訳(メタデータ) (2023-03-21T02:33:27Z) - Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers [57.1091606948826]
我々はこれらの課題に対処するため,ポーカー・フェイス・ビジョン・トランスフォーマー (PF-ViT) と呼ばれる新しいFERモデルを提案する。
PF-ViTは、対応するポーカーフェースを生成して、乱れを認識できない感情を静的な顔画像から分離し、認識することを目的としている。
PF-ViTはバニラビジョントランスフォーマーを使用し、そのコンポーネントは大規模な表情データセット上でMasked Autoencodeerとして事前トレーニングされている。
論文 参考訳(メタデータ) (2022-07-22T13:39:06Z) - EMOCA: Emotion Driven Monocular Face Capture and Animation [59.15004328155593]
本稿では,学習中の感情の深層的一貫性を損なうことによって,再構成された3次元表現が入力画像に表現された表現と一致することを確実にする。
In-the-wild emotion recognitionのタスクでは、人間の行動を分析する上での3D幾何の価値を強調しながら、最も優れた画像ベースの手法と同等に幾何学的アプローチを実践しています。
論文 参考訳(メタデータ) (2022-04-24T15:58:35Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。