論文の概要: GAST: Sequential Gaussian Avatars with Hierarchical Spatio-temporal Context
- arxiv url: http://arxiv.org/abs/2411.16768v1
- Date: Mon, 25 Nov 2024 04:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:40.220290
- Title: GAST: Sequential Gaussian Avatars with Hierarchical Spatio-temporal Context
- Title(参考訳): GAST:階層的時空間文脈を持つ連続ガウスアバター
- Authors: Wangze Xu, Yifan Zhan, Zhihang Zhong, Xiao Sun,
- Abstract要約: 3D人間のアバターは、標準放射場とフレームごとの歪みを観察することで、高忠実なレンダリングとアニメーションを可能にします。
空間SMPL(-X)のポーズや時間埋め込みに依存する既存の手法は、それぞれ粗い品質や限られたアニメーションの柔軟性に悩まされている。
空間情報と時間情報の両方を階層的に統合することで、3DGSと3DGSを統合化するためのフレームワークであるGASTを提案する。
- 参考スコア(独自算出の注目度): 7.6736633105043515
- License:
- Abstract: 3D human avatars, through the use of canonical radiance fields and per-frame observed warping, enable high-fidelity rendering and animating. However, existing methods, which rely on either spatial SMPL(-X) poses or temporal embeddings, respectively suffer from coarse rendering quality or limited animation flexibility. To address these challenges, we propose GAST, a framework that unifies 3D human modeling with 3DGS by hierarchically integrating both spatial and temporal information. Specifically, we design a sequential conditioning framework for the non-rigid warping of the human body, under whose guidance more accurate 3D Gaussians can be obtained in the observation space. Moreover, the explicit properties of Gaussians allow us to embed richer sequential information, encompassing both the coarse sequence of human poses and finer per-vertex motion details. These sequence conditions are further sampled across different temporal scales, in a coarse-to-fine manner, ensuring unbiased inputs for non-rigid warping. Experimental results demonstrate that our method combined with hierarchical spatio-temporal modeling surpasses concurrent baselines, delivering both high-quality rendering and flexible animating capabilities.
- Abstract(参考訳): 3D人間のアバターは、標準放射場とフレームごとの歪みを観察することで、高忠実なレンダリングとアニメーションを可能にします。
しかし、空間SMPL(-X)のポーズや時間埋め込みに依存する既存の手法は、それぞれ粗いレンダリング品質や限られたアニメーションの柔軟性に悩まされている。
これらの課題に対処するために,空間情報と時間情報の両方を階層的に統合して3DGSと3Dモデリングを統合するフレームワークであるGASTを提案する。
具体的には、より正確な3Dガウスアンを観察空間で得ることができる人体の非剛体整形のためのシーケンシャルコンディショニング・フレームワークを設計する。
さらに、ガウスの明示的な性質は、人間のポーズの粗いシーケンスと頂点ごとの運動の詳細の両方を含む、よりリッチなシーケンシャルな情報を埋め込むことを可能にする。
これらのシーケンス条件は、異なる時間スケールでさらにサンプル化され、粗い方法で、非剛体ワープに対する不偏入力が保証される。
実験により,階層的時空間モデリングと組み合わせた手法が並列ベースラインを超越し,高品質なレンダリングとフレキシブルアニメーション機能を実現することを示した。
関連論文リスト
- DeSiRe-GS: 4D Street Gaussians for Static-Dynamic Decomposition and Surface Reconstruction for Urban Driving Scenes [71.61083731844282]
本稿では,自己教師型ガウススプラッティング表現であるDeSiRe-GSについて述べる。
複雑な駆動シナリオにおいて、効率的な静的・動的分解と高忠実な表面再構成を可能にする。
論文 参考訳(メタデータ) (2024-11-18T05:49:16Z) - Gaussian Splatting LK [0.11249583407496218]
本稿では,動的ガウススティングフレームワークにおけるネイティブワープフィールドの正規化の可能性について検討する。
フォワードワープフィールドネットワークに固有の知識を利用して解析速度場を導出できることが示される。
このルーカス・カナーデ型解析正規化により,高ダイナミックなシーンを再構成する際の優れた性能を実現することができる。
論文 参考訳(メタデータ) (2024-07-16T01:50:43Z) - STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video [7.345621536750547]
本稿では,映像中の3次元ポーズ推定のためのグラフベースのフレームワークを提案する。
具体的には,各アテンション層に直接グラフ情報を統合するグラフベースのアテンションメカニズムを開発する。
提案手法は,3次元人物のポーズ推定において,最先端の性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-14T06:45:27Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Spec-Gaussian: Anisotropic View-Dependent Appearance for 3D Gaussian Splatting [55.71424195454963]
Spec-Gaussian は球面調和の代わりに異方性球面ガウス場を利用するアプローチである。
実験結果から,本手法はレンダリング品質の面で既存の手法を超越していることが示された。
この改良は、3D GSの適用性を高めて、特異面と異方面の複雑なシナリオを扱う。
論文 参考訳(メタデータ) (2024-02-24T17:22:15Z) - TriHuman : A Real-time and Controllable Tri-plane Representation for
Detailed Human Geometry and Appearance Synthesis [76.73338151115253]
TriHumanは、人間によって調整され、変形可能で、効率的な三面体表現である。
我々は、未変形の三面体テクスチャ空間に、地球規模のサンプルを厳格にワープする。
このような三面的特徴表現が骨格運動でどのように条件付けされ、動的外観や幾何学的変化を考慮に入れられるかを示す。
論文 参考訳(メタデータ) (2023-12-08T16:40:38Z) - SC-GS: Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes [59.23385953161328]
動的シーンのための新しいビュー合成は、コンピュータビジョンとグラフィックスにおいて依然として難しい問題である。
本稿では,動的シーンの動作と外観を疎制御点と高密度ガウスに明示的に分解する新しい表現を提案する。
提案手法は,高忠実度な外観を維持しつつ,ユーザ制御のモーション編集を可能にする。
論文 参考訳(メタデータ) (2023-12-04T11:57:14Z) - Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene
Reconstruction [29.83056271799794]
暗黙の神経表現は、動的なシーンの再構築とレンダリングに対する新しいアプローチの道を開いた。
本稿では,3次元ガウシアンを用いてシーンを再構成し,標準空間で学習する,変形可能な3次元ガウシアンスプラッティング法を提案する。
微分ガウシアン化器により、変形可能な3Dガウシアンは高いレンダリング品質だけでなく、リアルタイムレンダリング速度も達成できる。
論文 参考訳(メタデータ) (2023-09-22T16:04:02Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。