論文の概要: LIFe-GoM: Generalizable Human Rendering with Learned Iterative Feedback Over Multi-Resolution Gaussians-on-Mesh
- arxiv url: http://arxiv.org/abs/2502.09617v1
- Date: Thu, 13 Feb 2025 18:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:48:09.878494
- Title: LIFe-GoM: Generalizable Human Rendering with Learned Iterative Feedback Over Multi-Resolution Gaussians-on-Mesh
- Title(参考訳): LIFe-GoM:マルチリゾリューション・ガウス・オン・メッシュに対する学習的反復フィードバックによる汎用的人間レンダリング
- Authors: Jing Wen, Alexander G. Schwing, Shenlong Wang,
- Abstract要約: スパース入力からのアニマタブルな人間のアバターの一般的なレンダリングは、大規模データのトレーニングから抽出されたデータ先行と誘導バイアスに依存する。
本稿では,再建過程における標準的な人体形状表現を逐次改善する反復的フィードバック更新フレームワークを提案する。
提案手法は,1秒未満のスパース入力からアニマタブルな表現を再構成し,95.1FPSのビューを1024×1024$でレンダリングし,THuman2.0上でPSNR/LPIPS*/FIDの24.65/110.82/51.27を達成する。
- 参考スコア(独自算出の注目度): 102.24454703207194
- License:
- Abstract: Generalizable rendering of an animatable human avatar from sparse inputs relies on data priors and inductive biases extracted from training on large data to avoid scene-specific optimization and to enable fast reconstruction. This raises two main challenges: First, unlike iterative gradient-based adjustment in scene-specific optimization, generalizable methods must reconstruct the human shape representation in a single pass at inference time. Second, rendering is preferably computationally efficient yet of high resolution. To address both challenges we augment the recently proposed dual shape representation, which combines the benefits of a mesh and Gaussian points, in two ways. To improve reconstruction, we propose an iterative feedback update framework, which successively improves the canonical human shape representation during reconstruction. To achieve computationally efficient yet high-resolution rendering, we study a coupled-multi-resolution Gaussians-on-Mesh representation. We evaluate the proposed approach on the challenging THuman2.0, XHuman and AIST++ data. Our approach reconstructs an animatable representation from sparse inputs in less than 1s, renders views with 95.1FPS at $1024 \times 1024$, and achieves PSNR/LPIPS*/FID of 24.65/110.82/51.27 on THuman2.0, outperforming the state-of-the-art in rendering quality.
- Abstract(参考訳): スパース入力からのアニマタブルな人間のアバターの一般的なレンダリングは、シーン固有の最適化を回避し、高速な再構築を可能にするために、大規模データのトレーニングから抽出されたデータ事前と誘導バイアスに依存する。
第一に、シーン固有の最適化における反復的な勾配に基づく調整とは異なり、一般化可能な方法は推論時に単一のパスで人間の形状表現を再構築する必要がある。
第二に、レンダリングは計算効率が良いが高解像度である。
両方の課題に対処するために、メッシュとガウス点の利点を2つの方法で組み合わせた、最近提案された二重形状表現を拡張します。
再現性を改善するために,再現時の標準的な人体形状表現を連続的に改善する反復的フィードバック更新フレームワークを提案する。
計算効率が良く高解像度なレンダリングを実現するため,結合多重解像度ガウス・オン・メシュ表現について検討した。
我々は,THuman2.0,XHuman,AIST++データに対する提案手法の評価を行った。
提案手法は,1秒未満のスパース入力からアニマタブルな表現を再構成し,95.1FPSのビューを1024ドル,PSNR/LPIPS*/FIDをTHuman2.0で24.65/110.82/51.27で達成し,レンダリング品質に優れていた。
関連論文リスト
- GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - EG-HumanNeRF: Efficient Generalizable Human NeRF Utilizing Human Prior for Sparse View [2.11923215233494]
一般化可能なニューラルレイディアンスフィールド(NeRF)は、シーンごとのトレーニングなしに、ニューラルネットワークによるデジタル人間のレンダリングを可能にする。
スパース・インプット・ビューを用いた高品質かつリアルタイムなレンダリングを実現する一般化可能なヒューマンNeRFフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-16T05:08:00Z) - Generalizable Human Gaussians for Sparse View Synthesis [48.47812125126829]
そこで本研究では,光写実的かつ正確な視線レンダリングを可能にする,一般化可能なヒトガウシアンを学習するための新しい手法を提案する。
このアプローチの重要な革新は、3次元ガウスパラメータの学習を、人間のテンプレートの2次元UV空間上で定義された回帰プロセスに再構成することである。
提案手法は,データ内一般化とクロスデータセット一般化設定の両方において,最近の手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-17T17:56:30Z) - CoherentGS: Sparse Novel View Synthesis with Coherent 3D Gaussians [18.42203035154126]
2次元画像空間で制御できる構造付きガウス表現を導入する。
次に、ガウス群、特にその位置を制約し、最適化中に独立に動くのを防ぐ。
我々は,様々な場面における最先端のスパースビュー NeRF ベースのアプローチと比較して,顕著な改善を示した。
論文 参考訳(メタデータ) (2024-03-28T15:27:13Z) - GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis [70.24111297192057]
我々は、文字の新たなビューをリアルタイムに合成するための新しいアプローチ、GPS-Gaussianを提案する。
提案手法は,スパースビューカメラ設定下での2K解像度のレンダリングを可能にする。
論文 参考訳(メタデータ) (2023-12-04T18:59:55Z) - LookinGood^{\pi}: Real-time Person-independent Neural Re-rendering for
High-quality Human Performance Capture [13.026888802770902]
本稿では,人間のパフォーマンスキャプチャシステムによる低品質な再構成結果のレンダリング品質をリアルタイムに向上することを目的とした,ニューラルリレンダリング手法を提案する。
我々のキーとなる考え方は、再構成された幾何学のレンダリングされたイメージをガイダンスとして利用し、少ない参照画像から人物固有の詳細を予測することである。
本手法は, 身近な人物に対して高忠実度画像を生成する方法よりも, 最先端の手法の方が優れていることを示す。
論文 参考訳(メタデータ) (2021-12-15T11:00:21Z) - Deep Neural Networks are Surprisingly Reversible: A Baseline for
Zero-Shot Inversion [90.65667807498086]
本稿では、内部表現のみを与えられたトレーニングモデルへの入力を復元するゼロショット直接モデル逆変換フレームワークを提案する。
ImageNetの最新の分類モデルでは、20層以上の表現から元の224x224px画像を近似的に復元できることを実証的に示す。
論文 参考訳(メタデータ) (2021-07-13T18:01:43Z) - Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。
両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-08-25T03:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。