論文の概要: OMG-Avatar: One-shot Multi-LOD Gaussian Head Avatar
- arxiv url: http://arxiv.org/abs/2603.01506v1
- Date: Mon, 02 Mar 2026 06:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.715419
- Title: OMG-Avatar: One-shot Multi-LOD Gaussian Head Avatar
- Title(参考訳): OMG-Avatar:ワンショットマルチLODガウスヘッドアバター
- Authors: Jianqiang Ren, Lin Liu, Steven Hoi,
- Abstract要約: OMG-アバター(OMG-Avatar)は、0.2秒で1枚の画像から3Dヘッドをアニマタブルに再現するための新しいワンショット方式である。
我々はグローバルな特徴抽出とプロジェクションに基づく局所的特徴抽出にトランスフォーマーベースのアーキテクチャを用いる。
本稿では,階層的詳細認識の強化とレベル・オブ・ディテール機能をサポートするための粗粒度学習パラダイムを提案する。
- 参考スコア(独自算出の注目度): 8.411047140592077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose OMG-Avatar, a novel One-shot method that leverages a Multi-LOD (Level-of-Detail) Gaussian representation for animatable 3D head reconstruction from a single image in 0.2s. Our method enables LOD head avatar modeling using a unified model that accommodates diverse hardware capabilities and inference speed requirements. To capture both global and local facial characteristics, we employ a transformer-based architecture for global feature extraction and projection-based sampling for local feature acquisition. These features are effectively fused under the guidance of a depth buffer, ensuring occlusion plausibility. We further introduce a coarse-to-fine learning paradigm to support Level-of-Detail functionality and enhance the perception of hierarchical details. To address the limitations of 3DMMs in modeling non-head regions such as the shoulders, we introduce a multi-region decomposition scheme in which the head and shoulders are predicted separately and then integrated through cross-region combination. Extensive experiments demonstrate that OMG-Avatar outperforms state-of-the-art methods in reconstruction quality, reenactment performance, and computational efficiency.
- Abstract(参考訳): 我々は,複数LOD(Level-of-Detail)ガウス表現を利用した新しいワンショット方式OMG-Avatarを提案する。
本手法は,多様なハードウェア機能と推論速度要求に対応する統一モデルを用いたLODヘッドアバターモデリングを実現する。
本研究では,グローバルな特徴抽出と局所的な特徴抽出のためのプロジェクションベースサンプリングにトランスフォーマー・ベース・アーキテクチャを用いる。
これらの特徴は、奥行きバッファの誘導により効果的に融合され、閉塞性を確保する。
さらに,包括学習パラダイムを導入し,レベル・オブ・ディテール機能をサポートし,階層的な詳細認識を強化する。
肩などの非頭部領域をモデル化する際の3DMMの限界に対処するため,頭部と肩を別々に予測し,クロスリージョンの組み合わせによって統合する多領域分解方式を提案する。
大規模な実験により、OMG-Avatarは再現性、再現性、計算効率において最先端の手法より優れていることが示された。
関連論文リスト
- OMEGA-Avatar: One-shot Modeling of 360° Gaussian Avatars [54.688420347927725]
OMEGA-Avatarは、単一の画像から一般化可能で360度完全でアニマブルな3Dガウスヘッドを同時に生成する最初のフレームワークである。
OMEGA-Avatarは最先端の性能を達成し,360度フルヘッド完全性において既存のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-12T08:16:38Z) - Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion [73.11061598576798]
カメラによる占有予測は、自動運転における3D知覚の主流のアプローチである。
textbfCIGOccはマルチレベル表現融合に基づく2段階の占有予測フレームワークである。
textbfCIGOccは、入力画像からセグメンテーション、グラフィックス、深さの特徴を抽出し、変形可能なマルチレベル融合機構を導入する。
論文 参考訳(メタデータ) (2025-10-15T06:37:33Z) - ImHead: A Large-scale Implicit Morphable Model for Localized Head Modeling [71.3859346921118]
imHeadは、表現力のある3Dヘッドアバターだけでなく、顔の特徴の局所的な編集を容易にする新しい3DMMである。
imHeadをトレーニングするために、4Kの異なるアイデンティティの大規模なデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-10-12T20:17:34Z) - FMGS-Avatar: Mesh-Guided 2D Gaussian Splatting with Foundation Model Priors for 3D Monocular Avatar Reconstruction [18.570290675633732]
2Dプリミティブをテンプレートメッシュ面に直接アタッチして位置、回転、動きを制限したメッシュガイド2Dガウススプラッティングを導入する。
Sapiensのような大規模データセットでトレーニングされた基礎モデルを活用して、モノクロビデオからの限られた視覚的手がかりを補完します。
実験により, 従来の手法に比べて再現性は優れており, 幾何的精度と外観忠実度は顕著に向上した。
論文 参考訳(メタデータ) (2025-09-18T08:41:41Z) - MuGS: Multi-Baseline Generalizable Gaussian Splatting Reconstruction [32.14335364083271]
新規なビュー合成のためのフィードフォワードアプローチであるMulti-Baseline Gaussian Splatting (MuGS)を提案する。
MuGSは、小さなベースラインと大きなベースラインの両方でスパース入力ビューを含む、多様なベースライン設定を効果的に処理する。
LLFFおよびMip-NeRF 360データセットにおけるゼロショット性能を実証した。
論文 参考訳(メタデータ) (2025-08-06T10:34:24Z) - M3D: Dual-Stream Selective State Spaces and Depth-Driven Framework for High-Fidelity Single-View 3D Reconstruction [3.2228041579285978]
M3Dは複雑なシーンのための新しい単一ビュー3D再構成フレームワークである。
グローバルな特徴と局所的な特徴の抽出のバランスを保ち、シーンの理解と表現精度を向上させる。
その結果,2重分岐特徴抽出による深度情報との融合により,幾何的整合性と忠実度が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-19T16:49:24Z) - Anti-Aliased Neural Implicit Surfaces with Encoding Level of Detail [54.03399077258403]
本稿では,高頻度幾何細部リカバリとアンチエイリアス化された新しいビューレンダリングのための効率的なニューラル表現であるLoD-NeuSを提案する。
我々の表現は、光線に沿った円錐状のフラストラム内の多面体化から空間特徴を集約する。
論文 参考訳(メタデータ) (2023-09-19T05:44:00Z) - Generalizable One-shot Neural Head Avatar [90.50492165284724]
本研究では,1枚の画像から3次元頭部アバターを再構成し,アニメイトする手法を提案する。
本研究では,一視点画像に基づく識別不能な人物を一般化するだけでなく,顔領域内外における特徴的詳細を捉えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T22:33:09Z) - Learning Personalized High Quality Volumetric Head Avatars from
Monocular RGB Videos [47.94545609011594]
本研究では,野生で撮影されたモノクロRGBビデオから高品質な3次元頭部アバターを学習する方法を提案する。
我々のハイブリッドパイプラインは、3DMMの幾何学的先行と動的追跡とニューラルラディアンス場を組み合わせることで、きめ細かい制御とフォトリアリズムを実現する。
論文 参考訳(メタデータ) (2023-04-04T01:10:04Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。