論文の概要: Splat-SAP: Feed-Forward Gaussian Splatting for Human-Centered Scene with Scale-Aware Point Map Reconstruction
- arxiv url: http://arxiv.org/abs/2511.22704v1
- Date: Thu, 27 Nov 2025 18:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.690995
- Title: Splat-SAP: Feed-Forward Gaussian Splatting for Human-Centered Scene with Scale-Aware Point Map Reconstruction
- Title(参考訳): Splat-SAP:スケール・アウェア・ポイント・マップを再構成した人中心シーンに対するフィードフォワードガウス・スプレイティング
- Authors: Boyao Zhou, Shunyuan Zheng, Zhanfeng Liao, Zihan Ma, Hanzhang Tu, Boning Liu, Yebin Liu,
- Abstract要約: Splat-SAPは,両眼カメラからの映像を広帯域で表示するためのフィードフォワード方式である。
我々は、ピクセルワイズポイントマップの再構成を利用して、その独立ビューモデリングにおいて、大きな空間に頑健な幾何学を表現する。
- 参考スコア(独自算出の注目度): 39.835146541795986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Splat-SAP, a feed-forward approach to render novel views of human-centered scenes from binocular cameras with large sparsity. Gaussian Splatting has shown its promising potential in rendering tasks, but it typically necessitates per-scene optimization with dense input views. Although some recent approaches achieve feed-forward Gaussian Splatting rendering through geometry priors obtained by multi-view stereo, such approaches still require largely overlapped input views to establish the geometry prior. To bridge this gap, we leverage pixel-wise point map reconstruction to represent geometry which is robust to large sparsity for its independent view modeling. In general, we propose a two-stage learning strategy. In stage 1, we transform the point map into real space via an iterative affinity learning process, which facilitates camera control in the following. In stage 2, we project point maps of two input views onto the target view plane and refine such geometry via stereo matching. Furthermore, we anchor Gaussian primitives on this refined plane in order to render high-quality images. As a metric representation, the scale-aware point map in stage 1 is trained in a self-supervised manner without 3D supervision and stage 2 is supervised with photo-metric loss. We collect multi-view human-centered data and demonstrate that our method improves both the stability of point map reconstruction and the visual quality of free-viewpoint rendering.
- Abstract(参考訳): Splat-SAPは、双眼カメラから人中心のシーンを鮮明に映し出すためのフィードフォワード方式である。
Gaussian Splattingはレンダリングタスクに有望な可能性を示しているが、通常はシーンごとの最適化と深い入力ビューを必要とする。
近年のいくつかのアプローチは、多視点ステレオによって得られる幾何先行によるフィードフォワードガウススプラッティングレンダリングを実現するが、そのようなアプローチは幾何先行を確立するために、ほとんど重複した入力ビューを必要とする。
このギャップを埋めるために、ピクセルワイズポイントマップの再構成を利用して、その独立ビューモデリングにおいて大きな疎性に頑健な幾何学を表現する。
一般に,2段階の学習戦略を提案する。
ステージ1では、カメラ制御を容易にする反復親和性学習プロセスにより、ポイントマップを実空間に変換する。
ステージ2では、2つの入力ビューのポイントマップを対象のビュープレーンに投影し、ステレオマッチングによりそのような幾何学を洗練させる。
さらに、高品質な画像をレンダリングするために、この洗練された平面上にガウス原始体を固定する。
メートル法表現として、ステージ1のスケール対応ポイントマップを3Dの監督なしに自己監督的に訓練し、ステージ2を光量損失で監督する。
我々は、多視点人中心データを収集し、ポイントマップ再構成の安定性と自由視点レンダリングの視覚的品質の両方を改善することを実証する。
関連論文リスト
- PointGS: Point Attention-Aware Sparse View Synthesis with Gaussian Splatting [4.451779041553596]
3D Gaussian splatting (3DGS) は、レンダリング速度と視覚品質の両方において、ニューラル放射場(NeRF)を超える革新的なレンダリング技術である。
本稿では,スパーストレーニングビューからリアルタイムかつ高品質なレンダリングを可能にするポイントワイズ特徴認識型ガウス分割フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-12T04:07:07Z) - PanopticSplatting: End-to-End Panoptic Gaussian Splatting [20.04251473153725]
そこで我々は,オープン・ボキャブラリ・パノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノ
本手法では,クエリ誘導型ガウス分割と局所的クロスアテンションを導入し,クロスフレームアソシエーションなしで2次元のインスタンスマスクを持ち上げる。
本手法は,ScanNet-V2とScanNet++データセット上での3Dシーンパノビュータ再構成において,高い性能を示す。
論文 参考訳(メタデータ) (2025-03-23T13:45:39Z) - CATSplat: Context-Aware Transformer with Spatial Guidance for Generalizable 3D Gaussian Splatting from A Single-View Image [18.445769892372528]
単視点3Dシーン再構成のための新しい一般化可能なトランスフォーマーベースのフレームワークであるCATSplatを紹介する。
シーン固有のコンテキストの詳細をテキスト埋め込みからクロスアテンションに組み込むことで、コンテキスト認識の再構築の道を開く。
大規模データセットを用いた実験により, 単視点3次元シーン再構成におけるCATSplatの最先端性能が実証された。
論文 参考訳(メタデータ) (2024-12-17T13:32:04Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - FreeSplat: Generalizable 3D Gaussian Splatting Towards Free-View Synthesis of Indoor Scenes [50.534213038479926]
FreeSplatは、長いシーケンス入力から自由視点合成まで、幾何学的に一貫した3Dシーンを再構築することができる。
ビュー数に関係なく、広いビュー範囲にわたる堅牢なビュー合成を実現するための、シンプルで効果的なフリービュートレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-28T08:40:14Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。