論文の概要: AVFace: Towards Detailed Audio-Visual 4D Face Reconstruction
- arxiv url: http://arxiv.org/abs/2304.13115v2
- Date: Thu, 11 May 2023 22:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 15:34:18.237112
- Title: AVFace: Towards Detailed Audio-Visual 4D Face Reconstruction
- Title(参考訳): avface: 視聴覚4次元顔再建に向けて
- Authors: Aggelina Chatziagapi, Dimitris Samaras
- Abstract要約: 2次元画像からの3次元顔の再構成は、深さのあいまいさによる制約の少ない問題である。
両モードを組み込んだAVFaceを提案し、任意の話者の4次元顔と唇の動きを正確に再構成する。
- 参考スコア(独自算出の注目度): 33.78412925549308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a multimodal solution to the problem of 4D face
reconstruction from monocular videos. 3D face reconstruction from 2D images is
an under-constrained problem due to the ambiguity of depth. State-of-the-art
methods try to solve this problem by leveraging visual information from a
single image or video, whereas 3D mesh animation approaches rely more on audio.
However, in most cases (e.g. AR/VR applications), videos include both visual
and speech information. We propose AVFace that incorporates both modalities and
accurately reconstructs the 4D facial and lip motion of any speaker, without
requiring any 3D ground truth for training. A coarse stage estimates the
per-frame parameters of a 3D morphable model, followed by a lip refinement, and
then a fine stage recovers facial geometric details. Due to the temporal audio
and video information captured by transformer-based modules, our method is
robust in cases when either modality is insufficient (e.g. face occlusions).
Extensive qualitative and quantitative evaluation demonstrates the superiority
of our method over the current state-of-the-art.
- Abstract(参考訳): 本研究では,モノクロ映像からの4次元顔再構成問題に対するマルチモーダル・ソリューションを提案する。
2次元画像からの3次元顔の再構成は、深さのあいまいさによる制約の少ない問題である。
最先端の手法は、単一の画像やビデオからの視覚情報を活用してこの問題を解決しようとするが、3dメッシュアニメーションのアプローチはオーディオに依存している。
しかし、ほとんどのケース(例えばAR/VRアプリケーション)では、ビデオには視覚情報と音声情報の両方が含まれている。
本研究では,任意の話者の4次元顔と唇の動きを,訓練に3次元的真実を必要とせず正確に再構成するAVFaceを提案する。
粗いステージは、3次元の変形可能なモデルのフレームあたりのパラメータを推定し、続いて唇の精製を行い、さらに細かいステージは顔の幾何学的詳細を復元する。
トランスフォーマティブ・モジュールによってキャプチャされた時間的音声と映像情報により,どちらのモダリティも不十分な場合(顔のオクルージョンなど)ではロバストな手法である。
大規模定性的・定量的評価は,本手法が現状よりも優れていることを示す。
関連論文リスト
- Total-Decom: Decomposed 3D Scene Reconstruction with Minimal Interaction [51.3632308129838]
人間のインタラクションを最小限に抑えた3次元再構成法であるTotal-Decomを提案する。
提案手法は,Segment Anything Model (SAM) とハイブリッド型暗黙的なニューラルサーフェス表現をシームレスに統合し,メッシュベースの領域成長技術を用いて正確な3次元オブジェクト分解を行う。
提案手法をベンチマークデータセット上で広範囲に評価し,アニメーションやシーン編集などの下流アプリケーションの可能性を示す。
論文 参考訳(メタデータ) (2024-03-28T11:12:33Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - State of the Art in Dense Monocular Non-Rigid 3D Reconstruction [100.9586977875698]
モノクル2D画像から変形可能なシーン(または非剛体)の3D再構成は、コンピュータビジョンとグラフィックスの長年、活発に研究されてきた領域である。
本研究は,モノクラー映像やモノクラービューの集合から,様々な変形可能な物体や複合シーンを高密度に非剛性で再現するための最先端の手法に焦点を当てる。
論文 参考訳(メタデータ) (2022-10-27T17:59:53Z) - Visual Speech-Aware Perceptual 3D Facial Expression Reconstruction from
Videos [32.48058491211032]
本稿では,3次元の表情を視覚的に認識する最初の方法を提案する。
我々は,3次元再構成音声頭部からの知覚がオリジナルの映像と類似するように適合過程を導出する「可読性」損失を提案する。
論文 参考訳(メタデータ) (2022-07-22T14:07:46Z) - Unbiased 4D: Monocular 4D Reconstruction with a Neural Deformation Model [76.64071133839862]
モノクロRGBビデオから一般的なデフォーミングシーンをキャプチャすることは、多くのコンピュータグラフィックスや視覚アプリケーションにとって不可欠である。
提案手法であるUb4Dは、大きな変形を処理し、閉塞領域での形状補完を行い、可変ボリュームレンダリングを用いて、単眼のRGBビデオを直接操作することができる。
我々の新しいデータセットの結果は公開され、表面の復元精度と大きな変形に対する堅牢性の観点から、技術の現状が明らかに改善されていることを実証する。
論文 参考訳(メタデータ) (2022-06-16T17:59:54Z) - LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from
Video using Pose and Lighting Normalization [4.43316916502814]
音声からパーソナライズされた3D音声をアニメーションするビデオベースの学習フレームワークを提案する。
データサンプルの効率を大幅に改善する2つのトレーニング時間データ正規化を導入する。
提案手法は,現在最先端のオーディオ駆動型ビデオ再現ベンチマークを,リアリズム,リップシンク,視覚的品質スコアの点で上回っている。
論文 参考訳(メタデータ) (2021-06-08T08:56:40Z) - Learning to Generate Customized Dynamic 3D Facial Expressions [47.5220752079009]
本研究では,4次元表情に着目した3次元画像から映像への翻訳について検討した。
我々は、現実的な高解像度の表情を合成するために、アーキテクチャのようなディープメッシュデコーダを用いる。
我々は180名の被験者から6つの表情の4Dスキャンによる高分解能データセットを用いてモデルを訓練した。
論文 参考訳(メタデータ) (2020-07-19T22:38:43Z) - DeepFaceFlow: In-the-wild Dense 3D Facial Motion Estimation [56.56575063461169]
DeepFaceFlowは、3D非剛体顔の流れを推定するための堅牢で高速で高精度なフレームワークである。
私たちのフレームワークは、2つの非常に大規模な顔ビデオデータセットでトレーニングされ、テストされました。
登録された画像に対して,60fpsで3次元フローマップを生成する。
論文 参考訳(メタデータ) (2020-05-14T23:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。