論文の概要: Visual Speech-Aware Perceptual 3D Facial Expression Reconstruction from
Videos
- arxiv url: http://arxiv.org/abs/2207.11094v1
- Date: Fri, 22 Jul 2022 14:07:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:14:28.758267
- Title: Visual Speech-Aware Perceptual 3D Facial Expression Reconstruction from
Videos
- Title(参考訳): 映像からの視覚認識型3次元表情再構成
- Authors: Panagiotis P. Filntisis, George Retsinas, Foivos
Paraperas-Papantoniou, Athanasios Katsamanis, Anastasios Roussos, Petros
Maragos
- Abstract要約: 本稿では,3次元の表情を視覚的に認識する最初の方法を提案する。
我々は,3次元再構成音声頭部からの知覚がオリジナルの映像と類似するように適合過程を導出する「可読性」損失を提案する。
- 参考スコア(独自算出の注目度): 32.48058491211032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent state of the art on monocular 3D face reconstruction from image
data has made some impressive advancements, thanks to the advent of Deep
Learning. However, it has mostly focused on input coming from a single RGB
image, overlooking the following important factors: a) Nowadays, the vast
majority of facial image data of interest do not originate from single images
but rather from videos, which contain rich dynamic information. b) Furthermore,
these videos typically capture individuals in some form of verbal communication
(public talks, teleconferences, audiovisual human-computer interactions,
interviews, monologues/dialogues in movies, etc). When existing 3D face
reconstruction methods are applied in such videos, the artifacts in the
reconstruction of the shape and motion of the mouth area are often severe,
since they do not match well with the speech audio.
To overcome the aforementioned limitations, we present the first method for
visual speech-aware perceptual reconstruction of 3D mouth expressions. We do
this by proposing a "lipread" loss, which guides the fitting process so that
the elicited perception from the 3D reconstructed talking head resembles that
of the original video footage. We demonstrate that, interestingly, the lipread
loss is better suited for 3D reconstruction of mouth movements compared to
traditional landmark losses, and even direct 3D supervision. Furthermore, the
devised method does not rely on any text transcriptions or corresponding audio,
rendering it ideal for training in unlabeled datasets. We verify the efficiency
of our method through exhaustive objective evaluations on three large-scale
datasets, as well as subjective evaluation with two web-based user studies.
- Abstract(参考訳): 画像データから単眼的3d顔再構成技術の最新は、ディープラーニングの出現によって、いくつかの素晴らしい進歩を遂げている。
しかし、主に1枚のRGB画像からの入力に焦点を当てており、以下の重要な要素を見下ろしている。
a) 今日,関心のある顔画像データの大部分は,単一の画像からではなく,リッチな動的情報を含むビデオから来ている。
b)さらに,これらのビデオは,通常,何らかの形態の口頭コミュニケーション(公開講演,テレ会議,視聴覚型人間-コンピュータインタラクション,インタビュー,映画におけるモノローグ/ダイアログ等)の個人をキャプチャする。
このような映像に既存の3d顔再建法を適用すると、音声とうまく一致しないため、口領域の形状や運動の復元におけるアーティファクトはしばしば厳しいものとなる。
上記の制限を克服するために,3次元口頭表情の視覚認識再構成を行う最初の方法を提案する。
これは、3d再構成された音声頭部からの知覚が元の映像に類似するように、嵌合過程を導く「リップリード」損失を提案するものである。
興味深いことに、従来のランドマークの損失よりも口の動きを3Dで再現し、直接の3D監視にも適している。
さらに、考案された手法は、テキストの書き起こしや対応するオーディオに頼らず、ラベルなしデータセットでのトレーニングに最適である。
本研究では,3つの大規模データセットの客観的評価と2つのWebベースユーザスタディによる主観評価により,本手法の有効性を検証する。
関連論文リスト
- Learn2Talk: 3D Talking Face Learns from 2D Talking Face [15.99315075587735]
本稿では,より優れた3次元音声対話ネットワークを構築することができるLearn2Talkという学習フレームワークを提案する。
オーディオビデオ同期ネットワークにインスパイアされた3Dシンク・リップエキスパートモデルが,リップシンクの追求のために考案された。
2次元対話顔法から選択された教師モデルを用いて、音声から3次元動きの回帰ネットワークのトレーニングを指導する。
論文 参考訳(メタデータ) (2024-04-19T13:45:14Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - AVFace: Towards Detailed Audio-Visual 4D Face Reconstruction [33.78412925549308]
2次元画像からの3次元顔の再構成は、深さのあいまいさによる制約の少ない問題である。
両モードを組み込んだAVFaceを提案し、任意の話者の4次元顔と唇の動きを正確に再構成する。
論文 参考訳(メタデータ) (2023-04-25T19:41:10Z) - EMOCA: Emotion Driven Monocular Face Capture and Animation [59.15004328155593]
本稿では,学習中の感情の深層的一貫性を損なうことによって,再構成された3次元表現が入力画像に表現された表現と一致することを確実にする。
In-the-wild emotion recognitionのタスクでは、人間の行動を分析する上での3D幾何の価値を強調しながら、最も優れた画像ベースの手法と同等に幾何学的アプローチを実践しています。
論文 参考訳(メタデータ) (2022-04-24T15:58:35Z) - Depth-Aware Generative Adversarial Network for Talking Head Video
Generation [15.43672834991479]
トーキングヘッドビデオ生成は、所定のソース画像と駆動ビデオからそれぞれ識別情報とポーズ情報を含む合成人間の顔ビデオを作成することを目的としている。
このタスクの既存の作業は、入力画像から学んだ2次元表現(外観や動きなど)に大きく依存している。
本稿では,顔画像から高密度な3次元形状(深度)を自動的に復元する自己教師付き幾何学学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-13T09:32:22Z) - LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from
Video using Pose and Lighting Normalization [4.43316916502814]
音声からパーソナライズされた3D音声をアニメーションするビデオベースの学習フレームワークを提案する。
データサンプルの効率を大幅に改善する2つのトレーニング時間データ正規化を導入する。
提案手法は,現在最先端のオーディオ駆動型ビデオ再現ベンチマークを,リアリズム,リップシンク,視覚的品質スコアの点で上回っている。
論文 参考訳(メタデータ) (2021-06-08T08:56:40Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。