論文の概要: GeoNVS: Geometry Grounded Video Diffusion for Novel View Synthesis
- arxiv url: http://arxiv.org/abs/2603.14965v1
- Date: Mon, 16 Mar 2026 08:23:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.803008
- Title: GeoNVS: Geometry Grounded Video Diffusion for Novel View Synthesis
- Title(参考訳): GeoNVS:新しいビュー合成のための幾何学的グラウンドドビデオ拡散
- Authors: Minjun Kang, Inkyu Shin, Taeyeop Lee, Myungchul Kim, In So Kweon, Kuk-Jin Yoon,
- Abstract要約: GeoNVSは、幾何学的忠実度とカメラ制御性の両方を明示的な3D幾何学的ガイダンスによって強化する新規なビューシンセサイザーである。
GS-Adapterは3次元ガウス表現に入力ビュー拡散特徴を持ち上げ、幾何学的に矛盾しない表現を補正するために拡散特徴を適応的に融合させる。
9シーンと18設定の実験では最先端のパフォーマンスを示し、SEVAやCameraCtrlよりも11.3%、14.9%改善されている。
- 参考スコア(独自算出の注目度): 73.97869945427645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel view synthesis requires strong 3D geometric consistency and the ability to generate visually coherent images across diverse viewpoints. While recent camera-controlled video diffusion models show promising results, they often suffer from geometric distortions and limited camera controllability. To overcome these challenges, we introduce GeoNVS, a geometry-grounded novel-view synthesizer that enhances both geometric fidelity and camera controllability through explicit 3D geometric guidance. Our key innovation is the Gaussian Splat Feature Adapter (GS-Adapter), which lifts input-view diffusion features into 3D Gaussian representations, renders geometry-constrained novel-view features, and adaptively fuses them with diffusion features to correct geometrically inconsistent representations. Unlike prior methods that inject geometry at the input level, GS-Adapter operates in feature space, avoiding view-dependent color noise that degrades structural consistency. Its plug-and-play design enables zero-shot compatibility with diverse feed-forward geometry models without additional training, and can be adapted to other video diffusion backbones. Experiments across 9 scenes and 18 settings demonstrate state-of-the-art performance, achieving 11.3% and 14.9% improvements over SEVA and CameraCtrl, with up to 2x reduction in translation error and 7x in Chamfer Distance.
- Abstract(参考訳): 新しいビュー合成には、強力な3次元幾何整合性が必要であり、多様な視点で視覚的に一貫性のある画像を生成する能力が必要である。
最近のカメラ制御ビデオ拡散モデルは有望な結果を示すが、幾何学的歪みと限定的なカメラ制御性に悩まされることが多い。
これらの課題を克服するために,幾何学的忠実度とカメラ制御性の両方を明示的な3次元幾何学的ガイダンスにより強化するジオNVSを紹介した。
我々の主要な革新は、入力ビュー拡散特徴を3次元ガウス表現に上げ、幾何学的に制約されたノベルビュー特徴を描画し、幾何学的に一貫性のない表現を補正するために拡散特徴と適応的に融合するガウススプレート特徴適応器(GS-Adapter)である。
入力レベルで幾何を注入する従来の方法とは異なり、GS-Adapterは特徴空間で機能し、構造的な一貫性を低下させるビュー依存カラーノイズを避ける。
プラグ・アンド・プレイの設計により、追加のトレーニングなしで様々なフィードフォワード幾何学モデルとのゼロショット互換性が実現され、他のビデオ拡散バックボーンに適応できる。
9シーンと18設定での実験では、SEVAとCameraCtrlよりも11.3%、14.9%改善され、翻訳エラーは最大2倍、Chamfer Distanceは7倍になった。
関連論文リスト
- Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video [76.32954467706581]
本稿では,生のビデオストリームからGEometric foundationモデルのスケーラブル適応を行うフレームワークであるSAGEを提案する。
階層的なマイニングパイプラインを使用して、ビデオをトレーニングトラジェクトリやハイブリッド監視に変換します。
実験の結果、SAGEはゼロショットの一般化を著しく向上し、チェムファー距離を20-42%削減した。
論文 参考訳(メタデータ) (2026-02-08T09:53:21Z) - Joint Geometry-Appearance Human Reconstruction in a Unified Latent Space via Bridge Diffusion [57.09673862519791]
本稿では,幾何学と外観のモデリングを結合潜在表現に統一する新しいフレームワークである textbfJGA-LBD を紹介する。
実験により、JGA-LBDは、幾何学的忠実度と外観品質の両方の観点から、現在の最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-01T12:48:56Z) - GeoVideo: Introducing Geometric Regularization into Video Generation Model [46.38507581500745]
フレームごとの深度予測による潜時拡散モデルの拡大により,ビデオ生成に幾何正則化損失を導入する。
本手法は, 外観生成と3次元構造モデリングのギャップを埋めることにより, 構造的コヒーレンス・時間的形状, 整合性, 物理的妥当性が向上する。
論文 参考訳(メタデータ) (2025-12-03T05:11:57Z) - Epipolar Geometry Improves Video Generation Models [73.44978239787501]
3D一貫性のあるビデオ生成は、生成および再構成タスクにおける多くの下流アプリケーションに大きな影響を与える可能性がある。
エピポーラ幾何学的制約が現代のビデオ拡散モデルをどのように改善するかを考察する。
データ駆動型ディープラーニングを古典的幾何学的コンピュータビジョンでブリッジすることで、空間的に一貫したビデオを生成する実用的な方法を提案する。
論文 参考訳(メタデータ) (2025-10-24T16:21:37Z) - 4D Driving Scene Generation With Stereo Forcing [62.47705572424127]
現在の生成モデルは、時間外挿と空間的新規ビュー合成(NVS)をシーンごとの最適化なしで同時にサポートする動的4D駆動シーンの合成に苦慮している。
PhiGenesisは、幾何学的・時間的整合性を持った映像生成技術を拡張する4次元シーン生成のための統合フレームワークである。
論文 参考訳(メタデータ) (2025-09-24T15:37:17Z) - Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling [29.723534231743038]
本稿では,映像拡散モデルと物理世界の3次元的性質のギャップを埋めるために,幾何学的強制法を提案する。
我々の重要な洞察は、事前訓練された幾何学基礎モデルの特徴と整列することで、モデル中間表現を幾何学的構造へ導くことである。
我々は、カメラビューコンディショニングとアクションコンディショニングの両方のビデオ生成タスクにおいて、Geometry Forcingを評価する。
論文 参考訳(メタデータ) (2025-07-10T17:55:08Z) - Diffusion-Guided Gaussian Splatting for Large-Scale Unconstrained 3D Reconstruction and Novel View Synthesis [22.767866875051013]
本稿では,現行手法の限界に対処する多視点拡散モデルを用いて,新しい3DGSフレームワークであるGS-Diffを提案する。
マルチビュー入力に条件付き擬似観測を生成することにより、制約の少ない3次元再構成問題をよく表されたものに変換する。
4つのベンチマークの実験では、GS-Diffは最先端のベースラインをかなりのマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2025-04-02T17:59:46Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。