論文の概要: Continuously Controllable Facial Expression Editing in Talking Face
Videos
- arxiv url: http://arxiv.org/abs/2209.08289v2
- Date: Tue, 28 Nov 2023 15:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 17:28:26.960134
- Title: Continuously Controllable Facial Expression Editing in Talking Face
Videos
- Title(参考訳): 対話型顔ビデオにおける表情編集の連続制御
- Authors: Zhiyao Sun, Yu-Hui Wen, Tian Lv, Yanan Sun, Ziyang Zhang, Yaoyuan
Wang, Yong-Jin Liu
- Abstract要約: 言語関連表現と感情関連表現はしばしば高結合である。
従来の画像から画像への変換手法は、我々のアプリケーションではうまく機能しない。
そこで本研究では,音声合成のための高品質な表情編集手法を提案する。
- 参考スコア(独自算出の注目度): 34.83353695337335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently audio-driven talking face video generation has attracted
considerable attention. However, very few researches address the issue of
emotional editing of these talking face videos with continuously controllable
expressions, which is a strong demand in the industry. The challenge is that
speech-related expressions and emotion-related expressions are often highly
coupled. Meanwhile, traditional image-to-image translation methods cannot work
well in our application due to the coupling of expressions with other
attributes such as poses, i.e., translating the expression of the character in
each frame may simultaneously change the head pose due to the bias of the
training data distribution. In this paper, we propose a high-quality facial
expression editing method for talking face videos, allowing the user to control
the target emotion in the edited video continuously. We present a new
perspective for this task as a special case of motion information editing,
where we use a 3DMM to capture major facial movements and an associated texture
map modeled by a StyleGAN to capture appearance details. Both representations
(3DMM and texture map) contain emotional information and can be continuously
modified by neural networks and easily smoothed by averaging in
coefficient/latent spaces, making our method simple yet effective. We also
introduce a mouth shape preservation loss to control the trade-off between lip
synchronization and the degree of exaggeration of the edited expression.
Extensive experiments and a user study show that our method achieves
state-of-the-art performance across various evaluation criteria.
- Abstract(参考訳): 近年,音声による対面映像生成が注目されている。
しかし、これらの会話ビデオの感情的な編集を連続的に制御可能な表現で行うという問題に対処する研究はほとんどなく、この業界では強い需要がある。
課題は、言語関連表現と感情関連表現が高結合であることである。
一方、従来の画像から画像への変換手法では、ポーズなどの他の属性と表現の結合、すなわち各フレームにおける文字表現の翻訳は、トレーニングデータ分布のバイアスにより、頭の位置が同時に変化する可能性があるため、アプリケーションではうまく機能しない。
そこで本稿では,会話ビデオの高品質な表情編集手法を提案し,ユーザが編集ビデオのターゲット感情を連続的に制御できるようにする。
本研究では,3dmmを用いて顔の動きをキャプチャし,スタイルガンによってモデル化されたテクスチャマップを用いて外観の詳細をキャプチャする,モーション情報編集の特別なケースとして,この課題の新しい視点を提案する。
両方の表現(3dmmとテクスチャマップ)には感情情報が含まれており、ニューラルネットワークによって連続的に修正され、係数/相対空間の平均化によって容易に平滑化することができる。
また,唇の同期と編集表現の誇張の程度とのトレードオフを制御するために,口形状保存損失を導入する。
広範な実験とユーザスタディにより,様々な評価基準において最先端の性能が得られた。
関連論文リスト
- EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。
感情のカテゴリや強度のきめ細かい制御を可能にする。
他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-11T13:23:22Z) - Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。
現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。
顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文 参考訳(メタデータ) (2024-07-25T18:29:48Z) - Emotional Conversation: Empowering Talking Faces with Cohesive Expression, Gaze and Pose Generation [12.044308738509402]
3次元顔のランドマークを中間変数として用いた2段階の音声駆動音声顔生成フレームワークを提案する。
このフレームワークは、自己指導型学習を通じて、表現、視線、感情との協調的なアライメントを実現する。
我々のモデルは、視覚的品質と感情的アライメントの両方において、最先端のパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2024-06-12T06:00:00Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Neural Emotion Director: Speech-preserving semantic control of facial
expressions in "in-the-wild" videos [31.746152261362777]
In-the-wild」ビデオにおいて,アクターの感情状態をリアルに操作するための新しい深層学習手法を提案する。
提案手法は,頭部のポーズや表情から顔のアイデンティティを確実に切り離すことのできる,入力シーンにおけるアクターのパラメトリックな3次元顔表現に基づく。
次に、新しいディープドメイン翻訳フレームワークを使用し、顔の表情を一貫した、そして妥当な方法で変更し、そのダイナミクスを考慮に入れます。
論文 参考訳(メタデータ) (2021-12-01T15:55:04Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Write-a-speaker: Text-based Emotional and Rhythmic Talking-head
Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。
本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。
本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2021-04-16T09:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。