論文の概要: YoNoSplat: You Only Need One Model for Feedforward 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2511.07321v1
- Date: Mon, 10 Nov 2025 17:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.392038
- Title: YoNoSplat: You Only Need One Model for Feedforward 3D Gaussian Splatting
- Title(参考訳): YoNoSplat:フィードフォワード型3Dガウス型スプレイティングのモデルが1つ必要
- Authors: Botao Ye, Boqi Chen, Haofei Xu, Daniel Barath, Marc Pollefeys,
- Abstract要約: YoNoSplatは、任意の数の画像から高品質な3次元ガウス格子表現を再構成するフィードフォワードモデルである。
我々のモデルは非常に多用途で、ポーズとアンポーズの両方で効果的に動作し、校正され、校正されていない入力を処理します。
ポーズフリーとポーズ依存の両方の設定で、標準ベンチマークで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 79.38712054342625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fast and flexible 3D scene reconstruction from unstructured image collections remains a significant challenge. We present YoNoSplat, a feedforward model that reconstructs high-quality 3D Gaussian Splatting representations from an arbitrary number of images. Our model is highly versatile, operating effectively with both posed and unposed, calibrated and uncalibrated inputs. YoNoSplat predicts local Gaussians and camera poses for each view, which are aggregated into a global representation using either predicted or provided poses. To overcome the inherent difficulty of jointly learning 3D Gaussians and camera parameters, we introduce a novel mixing training strategy. This approach mitigates the entanglement between the two tasks by initially using ground-truth poses to aggregate local Gaussians and gradually transitioning to a mix of predicted and ground-truth poses, which prevents both training instability and exposure bias. We further resolve the scale ambiguity problem by a novel pairwise camera-distance normalization scheme and by embedding camera intrinsics into the network. Moreover, YoNoSplat also predicts intrinsic parameters, making it feasible for uncalibrated inputs. YoNoSplat demonstrates exceptional efficiency, reconstructing a scene from 100 views (at 280x518 resolution) in just 2.69 seconds on an NVIDIA GH200 GPU. It achieves state-of-the-art performance on standard benchmarks in both pose-free and pose-dependent settings. Our project page is at https://botaoye.github.io/yonosplat/.
- Abstract(参考訳): 非構造画像からの高速で柔軟な3Dシーンの再構築は依然として大きな課題である。
任意の画像から高品質な3次元ガウス格子表現を再構成するフィードフォワードモデルYoNoSplatを提案する。
我々のモデルは非常に多用途で、ポーズとアンポーズの両方で効果的に動作し、校正され、校正されていない入力を処理します。
YoNoSplatは各ビューに対してローカルガウスとカメラのポーズを予測し、予測または提供されたポーズを使用してグローバル表現に集約される。
3Dガウシアンとカメラパラメータを共同学習することの難しさを克服するために,新しい混合学習戦略を導入する。
このアプローチは、2つのタスク間の絡み合いを軽減し、最初は接地木ポーズを使用して局所ガウスを集約し、徐々に予測された地木ポーズと接地木ポーズの混合へと移行し、トレーニング不安定性と露出バイアスの両方を防止する。
さらに、新しい対角カメラ距離正規化方式と、ネットワークにカメラの内在を埋め込むことにより、スケールのあいまいさを解消する。
さらに、YoNoSplatは固有のパラメータも予測し、未校正入力に対して実現可能である。
YoNoSplatは、NVIDIA GH200 GPU上で100ビュー(解像度280x518)のシーンをわずか2.69秒で再構築することで、非常に効率が良いことを実証している。
ポーズフリーとポーズ依存の両方の設定で、標準ベンチマークで最先端のパフォーマンスを実現する。
プロジェクトページはhttps://botaoye.github.io/yonosplat/。
関連論文リスト
- No Pose at All: Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views [17.221166075016257]
SPFSplatはスパース多視点画像から3次元ガウススプラッティングを行うための効率的なフレームワークである。
共有機能抽出バックボーンを使用し、3Dガウスプリミティブとカメラポーズの同時予測を可能にする。
視点の大幅な変化や画像重なりの制限の下でも、新しいビュー合成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-02T03:19:13Z) - AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views [68.94737256959661]
AnySplatは、未校正画像コレクションから新しいビューを合成するためのフィードフォワードネットワークである。
単一のフォワードパスは、シーン幾何学と外観の両方をコードする3Dガウスプリミティブのセットを生成する。
広範囲なゼロショット評価では、AnySplatはスパースと高密度の両方のビューシナリオにおいて、ポーズを意識するベースラインの品質にマッチする。
論文 参考訳(メタデータ) (2025-05-29T17:49:56Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - A Construct-Optimize Approach to Sparse View Synthesis without Camera Pose [44.13819148680788]
カメラポーズを伴わないスパースビュー合成のための新しい構成と最適化手法を開発した。
具体的には、単分子深度と画素を3次元の世界に投影することで、解を構築する。
タンク・アンド・テンプル・アンド・スタティック・ハイクスのデータセットに3つの広い範囲のビューで結果を示す。
論文 参考訳(メタデータ) (2024-05-06T17:36:44Z) - COLMAP-Free 3D Gaussian Splatting [88.420322646756]
本稿では,SfM前処理を使わずに新しいビュー合成を実現する手法を提案する。
入力フレームを逐次的に処理し、一度に1つの入力フレームを取ることで3Dガウスを段階的に成長させる。
提案手法は, 映像合成とカメラポーズ推定において, 大きな動き変化下での従来手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-12-12T18:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。