論文の概要: GAT-NeRF: Geometry-Aware-Transformer Enhanced Neural Radiance Fields for High-Fidelity 4D Facial Avatars
- arxiv url: http://arxiv.org/abs/2601.14875v1
- Date: Wed, 21 Jan 2026 11:05:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.338281
- Title: GAT-NeRF: Geometry-Aware-Transformer Enhanced Neural Radiance Fields for High-Fidelity 4D Facial Avatars
- Title(参考訳): GAT-NeRF:高密度4次元顔アバターのための幾何変換器強化ニューラルラジアンス場
- Authors: Zhe Chang, Haodong Jin, Ying Sun, Yan Song, Hui Yu,
- Abstract要約: 高忠実かつ制御可能な4次元顔アバター再構成のためのGeometry-Aware-Transformer Enhanced NeRF(GAT-NeRF)を提案する。
GAT-NeRFはTransformerメカニズムをNeural Radiance Fields (NeRF)パイプラインに統合する。
GAT-NeRFの視覚的忠実度と高周波詳細回復における最先端性能を実験的に実証した。
- 参考スコア(独自算出の注目度): 11.047907356679746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-fidelity 4D dynamic facial avatar reconstruction from monocular video is a critical yet challenging task, driven by increasing demands for immersive virtual human applications. While Neural Radiance Fields (NeRF) have advanced scene representation, their capacity to capture high-frequency facial details, such as dynamic wrinkles and subtle textures from information-constrained monocular streams, requires significant enhancement. To tackle this challenge, we propose a novel hybrid neural radiance field framework, called Geometry-Aware-Transformer Enhanced NeRF (GAT-NeRF) for high-fidelity and controllable 4D facial avatar reconstruction, which integrates the Transformer mechanism into the NeRF pipeline. GAT-NeRF synergistically combines a coordinate-aligned Multilayer Perceptron (MLP) with a lightweight Transformer module, termed as Geometry-Aware-Transformer (GAT) due to its processing of multi-modal inputs containing explicit geometric priors. The GAT module is enabled by fusing multi-modal input features, including 3D spatial coordinates, 3D Morphable Model (3DMM) expression parameters, and learnable latent codes to effectively learn and enhance feature representations pertinent to fine-grained geometry. The Transformer's effective feature learning capabilities are leveraged to significantly augment the modeling of complex local facial patterns like dynamic wrinkles and acne scars. Comprehensive experiments unequivocally demonstrate GAT-NeRF's state-of-the-art performance in visual fidelity and high-frequency detail recovery, forging new pathways for creating realistic dynamic digital humans for multimedia applications.
- Abstract(参考訳): 高忠実度4Dダイナミックな顔アバターをモノクロビデオから再構築することは、没入型バーチャルヒューマンアプリケーションへの需要の増加に起因して、非常に難しい作業である。
ニューラル・ラジアンス・フィールド(NeRF)には高度なシーン表現があるが、ダイナミックなしわや、情報に制約されたモノクラー・ストリームからの微妙なテクスチャなど、高周波の顔の細部を捉える能力は大幅に向上する必要がある。
この課題に対処するため、我々はGeometry-Aware-Transformer Enhanced NeRF (GAT-NeRF) と呼ばれる新しいハイブリッドニューラルネットワーク分野のフレームワークを提案し、高い忠実度と制御可能な4D顔アバター再構成を実現し、Transformer機構をNeRFパイプラインに統合する。
GAT-NeRFは、座標整列型多層パーセプトロン(MLP)と軽量トランスフォーマーモジュール(Geometry-Aware-Transformer (GAT))を相乗的に結合する。
GATモジュールは、3次元空間座標、3次元Morphable Model(3DMM)式パラメータ、学習可能な潜在符号を含む多モード入力特徴を融合することにより、微細な幾何学に関連する特徴表現を効果的に学習し、拡張することができる。
Transformerの効果的な特徴学習能力を利用して、ダイナミックなしわやアシネの傷のような複雑な局所的な顔パターンのモデリングを大幅に強化する。
総合的な実験は、GAT-NeRFの視覚的忠実度と高頻度ディテールリカバリにおける最先端の性能を明白に実証し、マルチメディアアプリケーションのための現実的なデジタル人間を作成するための新しい経路を創出する。
関連論文リスト
- Multispectral-NeRF:a multispectral modeling approach based on neural radiance fields [3.606065291262699]
2次元画像に基づく3次元再構成技術は、通常RGBスペクトル情報に依存する。
RGB以外のスペクトルバンドは、ますます3D再構成に組み込まれている。
これらのスペクトルデータを統合する既存の方法は、高価なスキーム価格、低い精度、幾何学的特徴に悩まされることが多い。
我々は、マルチスペクトル情報を効果的に統合できる、NeRFから派生した拡張ニューラルアーキテクチャであるMultispectral-NeRFを提案する。
論文 参考訳(メタデータ) (2025-09-14T09:04:35Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - TeGA: Texture Space Gaussian Avatars for High-Resolution Dynamic Head Modeling [52.87836237427514]
フォトリアルアバターは、テレプレゼンス、拡張現実、エンターテイメントにおける新興アプリケーションにおいて重要な要素であると見なされている。
本稿では,最先端の3Dヘッドアバターモデルを提案する。
論文 参考訳(メタデータ) (2025-05-08T22:10:27Z) - DeforHMR: Vision Transformer with Deformable Cross-Attention for 3D Human Mesh Recovery [2.1653492349540784]
DeforHMRは、人間のポーズパラメータの予測を強化するために設計された、新しい回帰ベースの単分子HMRフレームワークである。
DeforHMRは、トランスフォーマーデコーダ内の新しいクエリ非依存の変形可能なクロスアテンション機構を活用する。
広範に使用されている3D HMRベンチマーク3DPW と RICH 上で,単一フレーム回帰に基づく手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-18T00:46:59Z) - Learning Personalized High Quality Volumetric Head Avatars from
Monocular RGB Videos [47.94545609011594]
本研究では,野生で撮影されたモノクロRGBビデオから高品質な3次元頭部アバターを学習する方法を提案する。
我々のハイブリッドパイプラインは、3DMMの幾何学的先行と動的追跡とニューラルラディアンス場を組み合わせることで、きめ細かい制御とフォトリアリズムを実現する。
論文 参考訳(メタデータ) (2023-04-04T01:10:04Z) - NeRFMeshing: Distilling Neural Radiance Fields into
Geometrically-Accurate 3D Meshes [56.31855837632735]
我々は、NeRF駆動のアプローチで容易に3次元表面を再構成できるコンパクトで柔軟なアーキテクチャを提案する。
最後の3Dメッシュは物理的に正確で、デバイスアレイ上でリアルタイムでレンダリングできます。
論文 参考訳(メタデータ) (2023-03-16T16:06:03Z) - NeRFInvertor: High Fidelity NeRF-GAN Inversion for Single-shot Real
Image Animation [66.0838349951456]
Nerfベースの生成モデルは、一貫した3次元幾何で高品質な画像を生成する能力を示している。
本研究では,このNeRF-GANモデルを外科的に微調整し,実物体の高忠実度アニメーションを単一画像のみで実現するための普遍的手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T18:36:45Z) - Next3D: Generative Neural Texture Rasterization for 3D-Aware Head
Avatars [36.4402388864691]
3D-Aware Generative Adversarial Network (GANs) は, 単一視点2D画像のコレクションのみを用いて, 高忠実かつ多視点の顔画像を合成する。
最近の研究は、3D Morphable Face Model (3DMM) を用いて、生成放射場における変形を明示的または暗黙的に記述している。
本研究では,非構造化2次元画像から生成的,高品質,かつ3D一貫性のある顔アバターの教師なし学習のための新しい3D GANフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:40:46Z) - HVTR: Hybrid Volumetric-Textural Rendering for Human Avatars [65.82222842213577]
本稿では,任意のポーズから人間の仮想アバターを効率よく,高品質に合成するニューラルレンダリングパイプラインを提案する。
まず,人体表面の高密度UV多様体上での人間の動きを符号化する。
次に、UV多様体上の符号化情報を利用して、3次元体積表現を構成する。
論文 参考訳(メタデータ) (2021-12-19T17:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。