論文の概要: CAP4D: Creating Animatable 4D Portrait Avatars with Morphable Multi-View Diffusion Models
- arxiv url: http://arxiv.org/abs/2412.12093v1
- Date: Mon, 16 Dec 2024 18:58:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:56:30.692163
- Title: CAP4D: Creating Animatable 4D Portrait Avatars with Morphable Multi-View Diffusion Models
- Title(参考訳): CAP4D:定型多視点拡散モデルによるアニマタブル4Dポートレートアバターの作成
- Authors: Felix Taubner, Ruihang Zhang, Mathieu Tuli, David B. Lindell,
- Abstract要約: CAP4Dは、様々な参照画像からフォトリアルな4Dポートレートアバターを再構成するために、変形可能な多視点拡散モデルを用いるアプローチである。
提案手法は, 単一像, 少数像, 複数像の4Dポートレートアバター再構成における最先端性能を示す。
- 参考スコア(独自算出の注目度): 9.622857933809067
- License:
- Abstract: Reconstructing photorealistic and dynamic portrait avatars from images is essential to many applications including advertising, visual effects, and virtual reality. Depending on the application, avatar reconstruction involves different capture setups and constraints $-$ for example, visual effects studios use camera arrays to capture hundreds of reference images, while content creators may seek to animate a single portrait image downloaded from the internet. As such, there is a large and heterogeneous ecosystem of methods for avatar reconstruction. Techniques based on multi-view stereo or neural rendering achieve the highest quality results, but require hundreds of reference images. Recent generative models produce convincing avatars from a single reference image, but visual fidelity yet lags behind multi-view techniques. Here, we present CAP4D: an approach that uses a morphable multi-view diffusion model to reconstruct photoreal 4D (dynamic 3D) portrait avatars from any number of reference images (i.e., one to 100) and animate and render them in real time. Our approach demonstrates state-of-the-art performance for single-, few-, and multi-image 4D portrait avatar reconstruction, and takes steps to bridge the gap in visual fidelity between single-image and multi-view reconstruction techniques.
- Abstract(参考訳): 広告、視覚効果、バーチャルリアリティーを含む多くのアプリケーションにおいて、画像からフォトリアリスティックおよびダイナミックなポートレートアバターを再構築することが不可欠である。
アプリケーションによっては、アバターの再構成には異なるキャプチャ設定と制約が伴う。例えば、視覚効果スタジオは数百の参照画像をキャプチャするためにカメラアレイを使用し、コンテンツクリエーターはインターネットからダウンロードされた1枚のポートレートイメージをアニメーション化しようとする。
そのため、アバター復元のための方法の大規模で異質なエコシステムが存在する。
マルチビューステレオまたはニューラルレンダリングに基づく技術は、最高品質の結果を得るが、数百の参照画像を必要とする。
最近の生成モデルは、単一の参照画像から説得力のあるアバターを生成するが、視覚的忠実度はマルチビュー技術に遅れている。
本稿では,様々な参照画像(例えば1から100)から写真リアルな4D(ダイナミック3D)ポートレートアバターを再構成し,リアルタイムにアニメーション・レンダリングするために,変形可能な多視点拡散モデルを用いたCAP4Dを提案する。
提案手法は, 単一像, 少数像, 複数像の4D像のアバター再構成における最先端性能を実証し, 単一像と多面的再構成技術の間の視力のギャップを埋めるためのステップを踏襲する。
関連論文リスト
- TextToon: Real-Time Text Toonify Head Avatar from Single Video [34.07760625281835]
乾燥可能なトーン化アバターを生成するためのTextToonを提案する。
短い単眼ビデオシーケンスとアバタースタイルに関する命令が与えられた場合,本モデルは高忠実度トーン化アバターを生成することができる。
論文 参考訳(メタデータ) (2024-09-23T15:04:45Z) - GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars [44.8290935585746]
フォトリアリスティックでコントロール可能な3Dアバターは、バーチャルリアリティー(VR/MR)、テレプレゼンス、ゲーム、映画制作など、様々な用途に欠かせない。
アバター作成の伝統的な方法は、しばしば各アバターのスキャンと再構築に時間を要する。
本稿では,多彩なアイデンティティを持つ写真リアルな顔アバターを生成可能なテキスト条件生成モデルを提案する。
論文 参考訳(メタデータ) (2024-08-24T21:25:22Z) - Instant 3D Human Avatar Generation using Image Diffusion Models [37.45927867788691]
AvatarPopUpは、異なる入力モードから高速で高品質な3Dアバターを生成する方法である。
われわれのアプローチでは、わずか2秒で3Dモデルを生成することができる。
論文 参考訳(メタデータ) (2024-06-11T17:47:27Z) - Generalizable One-shot Neural Head Avatar [90.50492165284724]
本研究では,1枚の画像から3次元頭部アバターを再構成し,アニメイトする手法を提案する。
本研究では,一視点画像に基づく識別不能な人物を一般化するだけでなく,顔領域内外における特徴的詳細を捉えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T22:33:09Z) - OTAvatar: One-shot Talking Face Avatar with Controllable Tri-plane
Rendering [81.55960827071661]
制御性、一般化性、効率性は、ニューラル暗黙の場で表される顔アバターを構成する主要な目的である。
汎用制御可能な3面描画ソリューションにより顔アバターを構成するワンショット面アバター(OTAvatar)を提案する。
論文 参考訳(メタデータ) (2023-03-26T09:12:03Z) - PointAvatar: Deformable Point-based Head Avatars from Videos [103.43941945044294]
PointAvatarは変形可能な点ベースの表現で、原色を固有アルベドと正規依存シェーディングに分解する。
提案手法は,複数の音源からのモノクロビデオを用いて,アニマタブルな3Dアバターを生成することができることを示す。
論文 参考訳(メタデータ) (2022-12-16T10:05:31Z) - AvatarGen: a 3D Generative Model for Animatable Human Avatars [108.11137221845352]
アバタージェネレーション(AvatarGen)は、多様な外観を持つ非剛体世代だけでなく、ポーズや視点の完全な制御を可能にする最初の方法である。
非剛性力学をモデル化するために、正準空間におけるポーズ依存的な変形を学習するための変形ネットワークを導入する。
提案手法は,高品質な外観と幾何モデルを備えたアニマタブルな人体アバターを生成でき,従来の3D GANよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-08-01T01:27:02Z) - MVP-Human Dataset for 3D Human Avatar Reconstruction from Unconstrained
Frames [59.37430649840777]
野生(Arwild)における3次元アバター再構成を行い,まず暗黙のスキンフィールドを多段階的に再構成する。
大規模なデータセットであるMVP-Humanには400人の被験者が参加し、それぞれ異なるポーズで15のスキャンを行います。
全体として、特定のネットワークアーキテクチャと多様なデータにより、トレーニングされたモデルは、制約のないフレームから3Dアバターを再構築することができる。
論文 参考訳(メタデータ) (2022-04-24T03:57:59Z) - Pixel Codec Avatars [99.36561532588831]
Pixel Codec Avatars(PiCA)は、3D人間の顔の深い生成モデルです。
oculus quest 2のモバイルvrヘッドセットでは、同じシーンで5つのアバターがリアルタイムでレンダリングされる。
論文 参考訳(メタデータ) (2021-04-09T23:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。