論文の概要: GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens
- arxiv url: http://arxiv.org/abs/2604.15284v2
- Date: Fri, 17 Apr 2026 07:38:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 13:38:49.408711
- Title: GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens
- Title(参考訳): GlobalSplat: 効率的なフィードフォワード3Dガウシアンスプレイティング
- Authors: Roni Itkin, Noam Issachar, Yehonatan Keypur, Xingyu Chen, Anpei Chen, Sagie Benaim,
- Abstract要約: 最初にアライメントの原則に基づいて構築されたGlobalSplatを紹介します。
提案手法は,マルチビュー入力を符号化し,クロスビュー対応を解消する,コンパクトでグローバルな潜在シーン表現を学習する。
RealEstate10KとACIDでは,16Kガウスしか利用せず,競合するノベルビュー合成性能を実現している。
- 参考スコア(独自算出の注目度): 41.96744884413287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The efficient spatial allocation of primitives serves as the foundation of 3D Gaussian Splatting, as it directly dictates the synergy between representation compactness, reconstruction speed, and rendering fidelity. Previous solutions, whether based on iterative optimization or feed-forward inference, suffer from significant trade-offs between these goals, mainly due to the reliance on local, heuristic-driven allocation strategies that lack global scene awareness. Specifically, current feed-forward methods are largely pixel-aligned or voxel-aligned. By unprojecting pixels into dense, view-aligned primitives, they bake redundancy into the 3D asset. As more input views are added, the representation size increases and global consistency becomes fragile. To this end, we introduce GlobalSplat, a framework built on the principle of align first, decode later. Our approach learns a compact, global, latent scene representation that encodes multi-view input and resolves cross-view correspondences before decoding any explicit 3D geometry. Crucially, this formulation enables compact, globally consistent reconstructions without relying on pretrained pixel-prediction backbones or reusing latent features from dense baselines. Utilizing a coarse-to-fine training curriculum that gradually increases decoded capacity, GlobalSplat natively prevents representation bloat. On RealEstate10K and ACID, our model achieves competitive novel-view synthesis performance while utilizing as few as 16K Gaussians, significantly less than required by dense pipelines, obtaining a light 4MB footprint. Further, GlobalSplat enables significantly faster inference than the baselines, operating under 78 milliseconds in a single forward pass. Project page is available at https://r-itk.github.io/globalsplat/
- Abstract(参考訳): プリミティブの効率的な空間割当は、表現のコンパクトさ、再構成速度、レンダリングの忠実さの相乗効果を直接規定する3Dガウススプラッティングの基礎となる。
これまでのソリューションは、反復最適化やフィードフォワード推論に基づいても、これらの目標間の大きなトレードオフに悩まされている。
特に、現在のフィードフォワード法は、主にピクセル整列またはボクセル整列である。
ピクセルを密集したビューアライメントプリミティブに投影することで、3Dアセットに冗長性を吹き込む。
より多くのインプットビューを追加すると、表現サイズが増加し、グローバルな一貫性が脆弱になる。
この目的のために、まずアライメントの原則に基づいて構築されたGlobalSplatを紹介し、後にデコードする。
提案手法は,多視点入力を符号化したコンパクトでグローバルなシーン表現を学習し,明示的な3次元幾何学を復号する前に相互対応を解消する。
重要なことに、この定式化は、事前訓練された画素予測バックボーンに頼ることなく、コンパクトで一貫した再構築を可能にし、密度の高いベースラインから潜伏した特徴を再利用する。
徐々にデコード容量を増大させる粗大なトレーニングカリキュラムを利用することで、GlobalSplatは、表現の肥大をネイティブに防止する。
RealEstate10KとACIDでは,16Kガウスの高密度パイプラインよりもはるかに少ない精度で,軽量な4MBフットプリントを実現するとともに,競合する新規ビュー合成性能を実現している。
さらに、GlobalSplatはベースラインよりもはるかに高速な推論が可能で、1回のフォワードパスで78ミリ秒以下で動作する。
プロジェクトページはhttps://r-itk.github.io/globalsplat/で公開されている。
関連論文リスト
- Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction [50.5449251266956]
本稿では,長い映像シーケンスから大規模3Dシーンを再構築する作業について述べる。
近年のフィードフォワード再構成モデルでは,RGB画像からの3次元幾何を,明示的な3次元先行や幾何学的制約なく直接回帰することで,有望な結果を示している。
本稿では,長距離シーン情報を効率よく圧縮し,保持するニューラルグローバルコンテキスト表現を提案する。
論文 参考訳(メタデータ) (2026-04-09T17:59:50Z) - S-VGGT: Structure-Aware Subscene Decomposition for Scalable 3D Foundation Models [15.408916900664783]
フィードフォワード3Dファンデーションモデルは、グローバルな注目によって導入された二次計算コストという、大きな課題に直面している。
構造フレームレベルでの冗長性に対処する新しいアプローチである textbfS-VGGT を導入する。
S-VGGTは完全にトークンレベルの加速法であり、複雑なスピードアップにシームレスに組み合わせることができる。
論文 参考訳(メタデータ) (2026-03-18T11:42:55Z) - Global-Aware Edge Prioritization for Pose Graph Initialization [58.77851776918465]
画像がノードとして機能し、エッジが相対的なポーズをエンコードするStructure-from-Motion(SfM)のコアコンポーネントである。
幾何的検証は高価であるため、SfMパイプラインはポーズグラフを候補エッジのスパース集合に制限する。
本稿では、この制限をエッジ優先順位付けの概念によって解決し、SfMの実用性によって候補エッジをランク付けする。
提案手法は,(1)一貫したエッジ信頼性を予測するために,SfMから指導を受けたGNN,(2)これらのランクで案内されるマルチミニマルスパンニングツリーに基づくポーズグラフ構築,(3)弱い領域を補強する接続性を考慮したスコア変調,の3つの構成要素を有する。
論文 参考訳(メタデータ) (2026-02-25T14:44:53Z) - What matters for Representation Alignment: Global Information or Spatial Structure? [64.67092609921816]
表現アライメント(REPA)は、強い事前訓練された視覚エンコーダから中間拡散特徴への表現を蒸留することにより、生成訓練を導く。
本稿では,対象表現のどの側面が生成に重要であるか,そのテクスト・グロバル・リビジョン・セマンティック・情報について検討する。
我々はREPAの標準射影層を単純な畳み込み層に置き換え、外部表現のための空間正規化層を導入する。
論文 参考訳(メタデータ) (2025-12-11T16:39:53Z) - ${C}^{3}$-GS: Learning Context-aware, Cross-dimension, Cross-scale Feature for Generalizable Gaussian Splatting [16.868578618340262]
Generalizable Gaussian Splattingは、シーンごとの最適化なしに、見えないシーンのための新しいビューを合成することを目的としている。
本稿では,コンテキスト認識,クロスディメンジョン,クロススケール制約を取り入れた特徴学習を支援するフレームワークであるmathbfC3$-GSを提案する。
我々のアーキテクチャは、3つの軽量モジュールを統合レンダリングパイプラインに統合し、機能融合を改善し、追加の監視を必要とせずに合成を可能にする。
論文 参考訳(メタデータ) (2025-08-28T13:12:18Z) - R3GS: Gaussian Splatting for Robust Reconstruction and Relocalization in Unconstrained Image Collections [9.633163304379861]
R3GSは、制約のないデータセットに適した堅牢な再構築と再ローカライゼーションフレームワークである。
過渡的物体の復元過程に対する悪影響を軽減するため,軽量な人検出ネットワークを構築した。
本研究では,屋外シーンにおける空域の課題に対処するために,事前の奥行きを制約として組み込んだ効果的なスカイハンドリング手法を提案する。
論文 参考訳(メタデータ) (2025-05-21T09:25:22Z) - CompGS++: Compressed Gaussian Splatting for Static and Dynamic Scene Representation [60.712165339762116]
CompGS++はコンパクトガウスプリミティブを活用して正確な3Dモデリングを実現する新しいフレームワークである。
私たちの設計は、プリミティブ間の冗長性をなくすという原則に基づいている。
私たちの実装は、さらなる研究を促進するためにGitHubで公開されます。
論文 参考訳(メタデータ) (2025-04-17T15:33:01Z) - MCGS: Multiview Consistency Enhancement for Sparse-View 3D Gaussian Radiance Fields [100.90743697473232]
3Dガウシアンによって表現される放射場は、高いトレーニング効率と高速レンダリングの両方を提供する、新しいビューの合成に優れている。
既存の手法では、高密度推定ネットワークからの奥行き先を組み込むことが多いが、入力画像に固有の多視点一貫性を見落としている。
スパースビューからのシーン再構成が可能な3次元ガウススプラッティングに基づくビュー合成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T08:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。