論文の概要: Multi-view Consistent 3D Gaussian Head Avatars 'without' Multi-view Generation
- arxiv url: http://arxiv.org/abs/2605.25220v1
- Date: Sun, 24 May 2026 19:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.028424
- Title: Multi-view Consistent 3D Gaussian Head Avatars 'without' Multi-view Generation
- Title(参考訳): マルチビュー整合型3次元ガウスヘッドアバター
- Authors: Aviral Chharia, Fernando De la Torre,
- Abstract要約: 高忠実度3Dガウスヘッドアバター生成は、AR/VR、テレプレゼンス、デジタル人間などの応用に不可欠である。
ランダムな2次元画像から条件付き3次元ヘッドモデルと条件なし3次元ヘッドモデルの両方を学習する。
MVCHeadは3D表現に直接マルチビューの一貫性を強制する単一ショット状態空間モデルである。
- 参考スコア(独自算出の注目度): 58.92622703334976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-fidelity 3D Gaussian head avatar generation is critical for applications such as AR/VR, telepresence, and digital humans. Existing methods depend on multi-view datasets, 3D captures, or intermediate 2D view synthesis. In contrast, we learn both conditional and unconditional 3D head models from randomly sampled 2D images alone, without using multi-view data, 3D supervision, or intermediate view generation. We introduce MVCHead, a single-shot state space model that enforces multi-view consistency (MVC) directly in the 3D representation while regressing 3D Gaussians under these constraints. At its core, we propose a Hierarchical State Space (HiSS) block that progressively refines Gaussians from coarse to fine, while capturing long-range dependencies. Within each HiSS block, we modify Mamba's standard unidirectional scan with the proposed Hierarchical Bi-directional State Scan (HiBiSS) that aligns recurrence with the axes along which multi-view inconsistencies are strongest. Finally, we design an SE(3) Multi-view Critic that judges whether a set of self-renders arises from a single underlying 3D configuration, rewarding cross-view pixel alignment without observing real multi-view pairs. MVCHead achieves state-of-the-art perceptual quality, surpasses prior methods in both texture and geometric consistency, and maintains comparable shape consistency. To demonstrate scalability, we release FaceGS-10K, the first large-scale dataset of ready-to-use 3D Gaussian head assets for training and evaluation of 3D head models. Project Page and code: https://humansensinglab.github.io/MVCHead/
- Abstract(参考訳): 高忠実度3Dガウスヘッドアバター生成は、AR/VR、テレプレゼンス、デジタル人間などの応用に不可欠である。
既存の方法は、マルチビューデータセット、3Dキャプチャー、中間2次元ビュー合成に依存する。
対照的に,無作為なサンプル2D画像から条件付き3Dヘッドモデルと条件なしの2Dヘッドモデルの両方を,多視点データや3D監督,中間ビュー生成を用いずに学習する。
このような制約下で3Dガウスを回帰させながら、3D表現に直接マルチビュー整合性(MVC)を強制するシングルショット状態空間モデルであるMVHeadを紹介する。
その中核となる階層的状態空間(HiSS)ブロックは、ガウス人を粗いものから細いものへと徐々に洗練し、長距離の依存関係を捕捉する。
提案する階層型双方向状態スキャン (HiBiSS) を用いて, マルチビューの不整合が最強となる軸の繰り返しを補正する。
最後に,1つの基礎となる3次元構成から自己レンダリングの集合が生じるかどうかを判断するSE(3)マルチビュー批評を設計し,実際のマルチビューペアを観察することなく,クロスビューの画素アライメントに報いる。
MVCHeadは最先端の知覚品質を実現し、テクスチャと幾何学的整合性の両方において従来のメソッドを超越し、同じ形状の一貫性を維持します。
スケーラビリティを示すために、我々は3Dヘッドモデルのトレーニングと評価のための3Dガウシアンヘッドアセットの最初の大規模データセットであるFaceGS-10Kをリリースした。
プロジェクトページとコード:https://humansensinglab.github.io/MVCHead/
関連論文リスト
- Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures [29.00521374069166]
HeadsUpは、大規模マルチカメラのセットアップから高品質な3Dガウスヘッドを再構築するためのスケーラブルなフィードフォワード方式である。
我々は、既存の多視点人頭データセットよりも桁違いに大きい1万人以上の被験者からなる内部データセット上で、我々のモデルをトレーニングし、評価する。
論文 参考訳(メタデータ) (2026-05-05T17:55:01Z) - RUMPL: Ray-Based Transformers for Universal Multi-View 2D to 3D Human Pose Lifting [81.66201044236321]
2D画像から3D人間のポーズを推定することは依然として難しい。
近年の手法では2次元ポーズ推定と2次元から3次元のポーズリフトを合成データで訓練した。
RUMPLは2次元キーポイントの3次元線による表現を導入するトランスフォーマーベースの3Dポーズリフト機である。
論文 参考訳(メタデータ) (2025-12-17T14:37:27Z) - PercHead: Perceptual Head Model for Single-Image 3D Head Reconstruction & Editing [51.56943889042673]
PercHeadは、シングルイメージの3Dヘッド再構成とセマンティック3D編集のための方法である。
単一の入力画像からビュー一貫性を持つ3Dヘッドを再構成するための統一ベースモデルを開発する。
軽量でインタラクティブなGUIを通して、直感的で強力な3D編集機能を強調します。
論文 参考訳(メタデータ) (2025-11-04T17:59:15Z) - Disentangling 3D from Large Vision-Language Models for Controlled Portrait Generation [9.325977756516908]
本稿では,大規模な視覚言語モデルから3Dを遠ざけることの問題点について考察する。
これにより、年齢、髪型、眼鏡などの外観特性の自由形式のテキスト制御や、顔の表情とカメラポーズの3D幾何学制御が可能になる。
既存の手法と比較して,本手法では,テキストと3D制御を付加したポートレートを生成する。
論文 参考訳(メタデータ) (2025-06-16T21:26:45Z) - GSV3D: Gaussian Splatting-based Geometric Distillation with Stable Video Diffusion for Single-Image 3D Object Generation [24.255633621887988]
本研究では,2次元拡散モデルの暗黙的3次元推論能力を活用しながら3次元の整合性を確保する手法を提案する。
具体的には、提案したガウススプラッティングデコーダは、SV3D潜在出力を明示的な3D表現に変換することで、3D一貫性を強制する。
その結果,高品質でマルチビュー一貫性のある画像と正確な3Dモデルが同時に生成されることがわかった。
論文 参考訳(メタデータ) (2025-03-08T09:10:31Z) - F3D-Gaus: Feed-forward 3D-aware Generation on ImageNet with Cycle-Aggregative Gaussian Splatting [35.625593119642424]
本稿では,モノケプラーデータセットから3次元認識を一般化する問題に取り組む。
画素整列型ガウススプラッティングに基づく新しいフィードフォワードパイプラインを提案する。
また,学習した3次元表現において,クロスビューの一貫性を強制する自己教師付きサイクル集約的制約を導入する。
論文 参考訳(メタデータ) (2025-01-12T04:44:44Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - Monocular, One-stage, Regression of Multiple 3D People [105.3143785498094]
我々は、複数の3D人物(ROMP)のための1段階方式で全てのメッシュを回帰することを提案する。
本手法は,体温マップとメッシュマップを同時に予測し,画素レベルの3Dボディメッシュを共同で記述する。
最先端の手法と比較して、ROMPは挑戦的なマルチパーソンベンチマークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-08-27T17:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。