論文の概要: ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare
- arxiv url: http://arxiv.org/abs/2603.09968v1
- Date: Tue, 10 Mar 2026 17:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.523088
- Title: ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare
- Title(参考訳): ReCoSplat:Render-and-Compareを用いた自動回帰フィードフォワードガウススティング
- Authors: Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang,
- Abstract要約: 本稿では,自動回帰フィードフォワードガウススプラッティングモデルであるReCoSplatについて述べる。
コードと事前訓練されたモデルがリリースされる。
- 参考スコア(独自算出の注目度): 53.16118137855849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online novel view synthesis remains challenging, requiring robust scene reconstruction from sequential, often unposed, observations. We present ReCoSplat, an autoregressive feed-forward Gaussian Splatting model supporting posed or unposed inputs, with or without camera intrinsics. While assembling local Gaussians using camera poses scales better than canonical-space prediction, it creates a dilemma during training: using ground-truth poses ensures stability but causes a distribution mismatch when predicted poses are used at inference. To address this, we introduce a Render-and-Compare (ReCo) module. ReCo renders the current reconstruction from the predicted viewpoint and compares it with the incoming observation, providing a stable conditioning signal that compensates for pose errors. To support long sequences, we propose a hybrid KV cache compression strategy combining early-layer truncation with chunk-level selective retention, reducing the KV cache size by over 90% for 100+ frames. ReCoSplat achieves state-of-the-art performance across different input settings on both in- and out-of-distribution benchmarks. Code and pretrained models will be released. Our project page is at https://freemancheng.com/ReCoSplat .
- Abstract(参考訳): オンラインのビューシンセサイザーは依然として困難であり、連続した、しばしば未提示の観測から堅牢なシーン再構築を必要としている。
本稿では,自動回帰フィードフォワードガウススプラッティングモデルであるReCoSplatについて,カメラの内在性の有無に関わらず,ポーズやアンポーズの入力をサポートする。
カメラを用いた局所ガウシアンの組み立ては、標準空間予測よりもスケールが良いが、訓練中にジレンマを発生させる。
これを解決するために、Render-and-Compare(ReCo)モジュールを導入します。
ReCoは予測された視点から現在の再構築をレンダリングし、受信した観測結果と比較し、ポーズエラーを補償する安定した条件付け信号を提供する。
本稿では,100以上のフレームに対してKVキャッシュサイズを90%以上削減し,KVキャッシュ圧縮手法を提案する。
ReCoSplatは、in-of-distriionベンチマークとout-of-distriionベンチマークの両方で異なる入力設定で最先端のパフォーマンスを実現する。
コードと事前訓練されたモデルがリリースされる。
私たちのプロジェクトページはhttps://freemancheng.com/ReCoSplatです。
関連論文リスト
- TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction [45.41545304485825]
TokenSplatは3次元ガウス復元とカメラポーズ推定のためのフィードフォワードフレームワークである。
TokenSplatのコアとなるのは、Token-aligned Gaussian Predictionモジュールだ。
長期のクロスビュー推論を可能にするために、マルチスケールのコンテキスト特徴を集約する。
論文 参考訳(メタデータ) (2026-02-28T15:13:13Z) - From Rays to Projections: Better Inputs for Feed-Forward View Synthesis [26.130973137744018]
フィードフォワードビュー合成モデルは、最小3次元誘導バイアスを持つ単一のパスで新しいビューを予測する。
既存の作業はカメラをシャーカー線マップとしてエンコードし、予測を任意の世界座標ゲージに結び付け、小さなカメラ変換に敏感にする。
本稿では,プロジェクティブ・コンディショニングを提案する。プロジェクティブ・コンディショニングは,プロジェクティブ・コンディショニングのパラメータを,安定な2次元入力を提供するターゲットビュー・プロジェクティブ・キューに置き換える。
論文 参考訳(メタデータ) (2026-01-08T17:03:44Z) - iGaussian: Real-Time Camera Pose Estimation via Feed-Forward 3D Gaussian Splatting Inversion [62.09575122593993]
iGaussianは2段階のフィードフォワードフレームワークで、直接3Dガウス変換によるリアルタイムカメラポーズ推定を実現する。
NeRF Synthetic, Mip-NeRF 360, T&T+DB データセットの実験結果から, 従来の手法に比べて大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2025-11-18T05:22:22Z) - YoNoSplat: You Only Need One Model for Feedforward 3D Gaussian Splatting [79.38712054342625]
YoNoSplatは、任意の数の画像から高品質な3次元ガウス格子表現を再構成するフィードフォワードモデルである。
我々のモデルは非常に多用途で、ポーズとアンポーズの両方で効果的に動作し、校正され、校正されていない入力を処理します。
ポーズフリーとポーズ依存の両方の設定で、標準ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-11-10T17:21:54Z) - AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views [68.94737256959661]
AnySplatは、未校正画像コレクションから新しいビューを合成するためのフィードフォワードネットワークである。
単一のフォワードパスは、シーン幾何学と外観の両方をコードする3Dガウスプリミティブのセットを生成する。
広範囲なゼロショット評価では、AnySplatはスパースと高密度の両方のビューシナリオにおいて、ポーズを意識するベースラインの品質にマッチする。
論文 参考訳(メタデータ) (2025-05-29T17:49:56Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。