論文の概要: ZipSplat: Fewer Gaussians, Better Splats
- arxiv url: http://arxiv.org/abs/2606.05102v1
- Date: Wed, 03 Jun 2026 17:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.911777
- Title: ZipSplat: Fewer Gaussians, Better Splats
- Title(参考訳): ZipSplat:ガウスが減り、スプレートも改善
- Authors: Alexander Veicht, Sunghwan Hong, Dániel Baráth, Marc Pollefeys,
- Abstract要約: 本稿では,ガウス配置を画素グリッドから分離するトークンベースのフィードフォワードモデルZipSplatを提案する。
クロスアテンションとセルフアテンションはこれらのトークンを洗練させ、単一のトレーニングされたモデルは、再トレーニングせずに品質-効率曲線にまたがる。
ZipSplatは、画期的なポーズや内在的ポーズなしで動作しますが、DL3DVとRealEstate10Kに新しい状態を設定します。
- 参考スコア(独自算出の注目度): 89.08529100444004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feed-forward 3D Gaussian Splatting methods reconstruct a scene from posed or pose-free images in a single forward pass, yet current approaches predict one Gaussian per input pixel, tying the representation budget to camera resolution rather than scene complexity. A flat wall and a richly textured object thus produce equally many Gaussians despite very different geometric needs. We propose ZipSplat, a token-based feed-forward model that decouples Gaussian placement from the pixel grid. A multi-view backbone extracts dense visual tokens, and k-means clustering compresses them into a compact set of scene tokens. Cross- and self-attention refine these tokens, and a lightweight MLP decodes each into a group of Gaussians with unconstrained 3D positions. Because clustering is applied at inference, a single trained model spans the quality-efficiency curve without retraining. ZipSplat operates without ground-truth poses or intrinsics, yet sets a new state of the art on DL3DV and RealEstate10K with ${\sim}6{\times}$ fewer Gaussians than pixel-aligned methods, surpassing the best pose-free baseline by 2.1dB and 1.2dB PSNR, respectively. It further generalizes zero-shot to Mip-NeRF360 and ScanNet++, outperforming all comparable baselines. Our project page is at ${\href{https://veichta.com/zipsplat}{https://veichta.com/zipsplat}}$.
- Abstract(参考訳): フィードフォワード3Dガウススメッティング法は,1つのフォワードパスでポーズフリー画像やポーズフリー画像からシーンを再構成するが,現在のアプローチでは1入力ピクセルあたりのガウス画像を1つ予測し,シーンの複雑さよりも表現予算をカメラの解像度に結びつける。
平坦な壁とリッチなテクスチャを持つ物体は、非常に異なる幾何学的要求にもかかわらず、同様に多くのガウスを創出する。
本稿では,ガウス配置を画素グリッドから分離するトークンベースのフィードフォワードモデルZipSplatを提案する。
マルチビューバックボーンは濃密な視覚トークンを抽出し、k平均クラスタリングはそれらをコンパクトなシーントークンセットに圧縮する。
交差および自己注意によりこれらのトークンが洗練され、軽量のMPPがそれぞれ、制約のない3D位置を持つガウスの群にデコードされる。
クラスタリングは推論に適用されるため、単一のトレーニングされたモデルは、再トレーニングせずに品質-効率曲線にまたがる。
ZipSplatは、地味なポーズや本質的なポーズなしで動作しますが、DL3DVとRealEstate10Kの新たな最先端を${\sim}6{\timesで設定します。
ゼロショットをMip-NeRF360とScanNet++に一般化し、同等のベースラインをすべて上回る。
私たちのプロジェクトページは、${\href{https://veichta.com/zipsplat}{https://veichta.com/zipsplat}}$.comにある。
関連論文リスト
- AnchorSplat: Feed-Forward 3D Gaussian Splatting with 3D Geometric Priors [23.943522711585597]
シーンレベルの再構築のための新しいフィードフォワード3DGSフレームワークであるAnchorSplatを提案する。
アンカーアラインのガウス表現は3次元幾何学的先行によって導かれる。
設計により、必要なガウス人の数は大幅に減少する。
論文 参考訳(メタデータ) (2026-04-08T13:04:54Z) - YoNoSplat: You Only Need One Model for Feedforward 3D Gaussian Splatting [79.38712054342625]
YoNoSplatは、任意の数の画像から高品質な3次元ガウス格子表現を再構成するフィードフォワードモデルである。
我々のモデルは非常に多用途で、ポーズとアンポーズの両方で効果的に動作し、校正され、校正されていない入力を処理します。
ポーズフリーとポーズ依存の両方の設定で、標準ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-11-10T17:21:54Z) - VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction [45.95623374754385]
VolSplatは新しいマルチビューフィードフォワードパラダイムで、ピクセルアライメントとボクセルアライメントのガウスを置き換えている。
これは、画素アライメントがエラーを起こしやすい2D特徴マッチングに依存していることを克服し、堅牢なマルチビュー一貫性を確保する。
RealEstate10KやScanNetなど、広く使用されているベンチマークの実験では、VolSplatが最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-23T17:59:02Z) - No Pose at All: Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views [17.221166075016257]
SPFSplatはスパース多視点画像から3次元ガウススプラッティングを行うための効率的なフレームワークである。
共有機能抽出バックボーンを使用し、3Dガウスプリミティブとカメラポーズの同時予測を可能にする。
視点の大幅な変化や画像重なりの制限の下でも、新しいビュー合成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-02T03:19:13Z) - AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views [68.94737256959661]
AnySplatは、未校正画像コレクションから新しいビューを合成するためのフィードフォワードネットワークである。
単一のフォワードパスは、シーン幾何学と外観の両方をコードする3Dガウスプリミティブのセットを生成する。
広範囲なゼロショット評価では、AnySplatはスパースと高密度の両方のビューシナリオにおいて、ポーズを意識するベースラインの品質にマッチする。
論文 参考訳(メタデータ) (2025-05-29T17:49:56Z) - LeanGaussian: Breaking Pixel or Point Cloud Correspondence in Modeling 3D Gaussians [11.71048049090424]
変形可能なトランスフォーマーにおける各クエリを1つの3次元ガウス楕円体として扱う新しいアプローチであるLeanGaussianを紹介する。
変形可能なデコーダを用いて、画像特徴をキーと値として、ガウス層を反復的に洗練する。
提案手法は従来の手法よりも約6.1%優れ,PSNRは25.44,PSNRは22.36であった。
論文 参考訳(メタデータ) (2024-04-25T04:18:59Z) - MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images [102.7646120414055]
入力としてスパースなマルチビュー画像を与えられたMVSplatは、クリーンなフィードフォワード3Dガウスを予測できる。
大規模RealEstate10KとACIDベンチマークでは、MVSplatは高速フィードフォワード推論速度(22fps)で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-21T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。