論文の概要: Generalizable Human Gaussian Splatting via Multi-view Semantic Consistency
- arxiv url: http://arxiv.org/abs/2604.25466v1
- Date: Tue, 28 Apr 2026 10:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.815896
- Title: Generalizable Human Gaussian Splatting via Multi-view Semantic Consistency
- Title(参考訳): 多視点セマンティック一貫性によるヒトガウススプラッティングの一般化
- Authors: Jingi Kim, Wonjun Kim,
- Abstract要約: 本稿では,3次元ガウスを高精度にローカライズし,人間のレンダリング品質を向上させる新しい手法を提案する。
鍵となるアイデアは、予測深度マップを通して各視点から符号化された潜伏埋め込みを共有3次元空間に解法することである。
ベンチマークによる実験結果から,提案手法はスパースビュー入力から一般化可能なヒトガウススプラッティングの性能を効率よく向上することが示された。
- 参考スコア(独自算出の注目度): 6.489803560613637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, generalizable human Gaussian splatting from sparse-view inputs has been actively studied for the photorealistic human rendering. Most existing methods rely on explicit geometric constraints or predefined structural representations to accurately position 3D Gaussians. Although these approaches have shown the remarkable progress in this field, they still suffer from inconsistent feature representations across multi-view inputs due to complex articulations of the human body and limited overlaps between different views. To address this problem, we propose a novel method to accurately localize 3D Gaussians and ultimately improve the quality of human rendering. The key idea is to unproject latent embeddings encoded from each viewpoint into a shared 3D space through predicted depth maps and recalibrate them belonging to the same body part based on cross-view attention. This helps the model resolve the spatial ambiguity occurring in highly textured regions as well as occluded body parts, thus leading to the accurate localization of 3D Gaussians. Experimental results on benchmark datasets show that the proposed method efficiently improves the performance of generalizable human Gaussian splatting from sparse-view inputs.
- Abstract(参考訳): 近年,フォトリアリスティックな人間のレンダリングのために,スパース・ビュー・インプットからの人間のガウス的スプレイティングが活発に研究されている。
既存の手法の多くは、3Dガウスを正確に位置決めするために、明示的な幾何学的制約や事前定義された構造的表現に依存している。
これらのアプローチは、この分野における顕著な進歩を示しているが、人体の複雑な関節化と異なる視点間の重複の制限により、多視点入力間の不整合特徴表現に悩まされている。
この問題に対処するために,3次元ガウスを高精度にローカライズし,最終的に人間のレンダリングの質を向上させる新しい手法を提案する。
鍵となる考え方は、各視点から符号化された潜伏埋め込みを予測された深度マップを通して共有3次元空間に切り離し、視野横断の注意に基づいて同一の身体部分に属するものを再検討することである。
これにより、高度にテクスチャ化された領域で発生する空間的あいまいさと、隠蔽された身体部分の解決に役立ち、3Dガウスの正確な位置化につながる。
ベンチマークによる実験結果から,提案手法はスパースビュー入力から一般化可能なヒトガウススプラッティングの性能を効率よく向上することが示された。
関連論文リスト
- SPAGS: Sparse-View Articulated Object Reconstruction from Single State via Planar Gaussian Splatting [8.690795471370643]
本稿では,平面ガウススプラッティングによるカテゴリー非依存のオブジェクト再構成フレームワークを提案する。
本手法は,合成データと実世界データの両方で高忠実な部分レベル表面再構成を実現する。
論文 参考訳(メタデータ) (2025-11-21T09:49:53Z) - RoGSplat: Learning Robust Generalizable Human Gaussian Splatting from Sparse Multi-View Images [39.03889696169877]
RoGSplatは、スパースマルチビュー画像から見えない人間の高忠実な新しいビューを合成するための新しいアプローチである。
提案手法は,新しいビュー合成とクロスデータセットの一般化において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-03-18T12:18:34Z) - NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Generalizable Human Gaussians for Sparse View Synthesis [48.47812125126829]
そこで本研究では,光写実的かつ正確な視線レンダリングを可能にする,一般化可能なヒトガウシアンを学習するための新しい手法を提案する。
このアプローチの重要な革新は、3次元ガウスパラメータの学習を、人間のテンプレートの2次元UV空間上で定義された回帰プロセスに再構成することである。
提案手法は,データ内一般化とクロスデータセット一般化設定の両方において,最近の手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-17T17:56:30Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。