論文の概要: From Rays to Projections: Better Inputs for Feed-Forward View Synthesis
- arxiv url: http://arxiv.org/abs/2601.05116v1
- Date: Thu, 08 Jan 2026 17:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.295492
- Title: From Rays to Projections: Better Inputs for Feed-Forward View Synthesis
- Title(参考訳): 画像から投影へ:フィードフォワードビュー合成のためのより良い入力
- Authors: Zirui Wu, Zeren Jiang, Martin R. Oswald, Jie Song,
- Abstract要約: フィードフォワードビュー合成モデルは、最小3次元誘導バイアスを持つ単一のパスで新しいビューを予測する。
既存の作業はカメラをシャーカー線マップとしてエンコードし、予測を任意の世界座標ゲージに結び付け、小さなカメラ変換に敏感にする。
本稿では,プロジェクティブ・コンディショニングを提案する。プロジェクティブ・コンディショニングは,プロジェクティブ・コンディショニングのパラメータを,安定な2次元入力を提供するターゲットビュー・プロジェクティブ・キューに置き換える。
- 参考スコア(独自算出の注目度): 26.130973137744018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feed-forward view synthesis models predict a novel view in a single pass with minimal 3D inductive bias. Existing works encode cameras as Plücker ray maps, which tie predictions to the arbitrary world coordinate gauge and make them sensitive to small camera transformations, thereby undermining geometric consistency. In this paper, we ask what inputs best condition a model for robust and consistent view synthesis. We propose projective conditioning, which replaces raw camera parameters with a target-view projective cue that provides a stable 2D input. This reframes the task from a brittle geometric regression problem in ray space to a well-conditioned target-view image-to-image translation problem. Additionally, we introduce a masked autoencoding pretraining strategy tailored to this cue, enabling the use of large-scale uncalibrated data for pretraining. Our method shows improved fidelity and stronger cross-view consistency compared to ray-conditioned baselines on our view-consistency benchmark. It also achieves state-of-the-art quality on standard novel view synthesis benchmarks.
- Abstract(参考訳): フィードフォワードビュー合成モデルは、最小3次元誘導バイアスを持つ単一のパスで新しいビューを予測する。
既存の作業はカメラをプリュッカー線マップとしてエンコードし、任意の世界座標ゲージに予測を結び付け、小さなカメラ変換に敏感にすることで、幾何学的整合性を損なう。
本稿では、ロバストで一貫したビュー合成のためのモデルとして、どの入力が最適か尋ねる。
本稿では,プロジェクティブ・コンディショニングを提案する。プロジェクティブ・コンディショニングは,プロジェクティブ・コンディショニングのパラメータを,安定な2次元入力を提供するターゲットビュー・プロジェクティブ・キューに置き換える。
これにより、光線空間における不安定な幾何学的回帰問題から、十分に条件付けられた目標視画像から画像への変換問題へとタスクを再構成する。
さらに、このキューに合わせたマスク付き自動符号化事前学習戦略を導入し、大規模な未校正データを事前学習に利用できるようにする。
提案手法は,表示一貫性ベンチマークにおける光条件ベースラインと比較して,忠実度の向上とクロスビューの整合性の向上を示す。
また、標準的な新しいビュー合成ベンチマークで最先端のクオリティも達成している。
関連論文リスト
- ARSS: Taming Decoder-only Autoregressive Visual Generation for View Synthesis From Single View [11.346049532150127]
textbfARSSは、カメラの軌跡に条件付けされた単一の画像から新しいビューを生成するフレームワークである。
本手法は,拡散モデルに基づく最先端のビュー合成手法に比較可能か,あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2025-09-27T00:03:09Z) - AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views [68.94737256959661]
AnySplatは、未校正画像コレクションから新しいビューを合成するためのフィードフォワードネットワークである。
単一のフォワードパスは、シーン幾何学と外観の両方をコードする3Dガウスプリミティブのセットを生成する。
広範囲なゼロショット評価では、AnySplatはスパースと高密度の両方のビューシナリオにおいて、ポーズを意識するベースラインの品質にマッチする。
論文 参考訳(メタデータ) (2025-05-29T17:49:56Z) - Recollection from Pensieve: Novel View Synthesis via Learning from Uncalibrated Videos [36.49978976710115]
本稿では、生のビデオフレームや多視点画像のみからビュー合成モデルを訓練するための新しい2段階戦略を提案する。
第1段階では、明示的な3D表現に頼ることなく、潜在空間で暗黙的にシーンを再構築することを学ぶ。
学習した潜入カメラと暗黙のシーン表現は、実世界と比較すると大きなギャップがある。
論文 参考訳(メタデータ) (2025-05-19T17:59:05Z) - Stable Virtual Camera: Generative View Synthesis with Diffusion Models [51.71244310522393]
本稿では,シーンの新たなビューを生成する汎用拡散モデルであるスタブルバーチャルカメラ(Seva)を紹介する。
このアプローチは、シンプルなモデル設計、最適化されたトレーニングレシピ、柔軟なサンプリング戦略によってこれらの制限を克服する。
提案手法では,シームレスなループ閉鎖により,最大半分間の高品質なビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-18T17:57:22Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Geometry-biased Transformers for Novel View Synthesis [36.11342728319563]
入力画像と関連するカメラ視点が与えられたオブジェクトの新規ビューを合成するタスクに取り組む。
我々の研究は、マルチビュー画像を(グローバル)セットラテント表現としてエンコードする最近の「幾何学自由」アプローチにインスパイアされている。
本稿では, 幾何学的帰納バイアスをセットレイト表現に基づく推論に組み込んだ「幾何学バイアス変換器」(GBT)を提案する。
論文 参考訳(メタデータ) (2023-01-11T18:59:56Z) - Generalizable Patch-Based Neural Rendering [46.41746536545268]
未知のシーンの新たなビューを合成できるモデル学習のための新しいパラダイムを提案する。
本手法は,シーンから採取したパッチの集合からのみ,新規シーンにおける対象光線の色を直接予測することができる。
本手法は,従来よりも少ないデータでトレーニングされた場合であっても,目立たないシーンの新たなビュー合成において,最先端のビュー合成よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-21T17:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。