論文の概要: Novel View Synthesis from A Few Glimpses via Test-Time Natural Video Completion
- arxiv url: http://arxiv.org/abs/2511.17932v1
- Date: Sat, 22 Nov 2025 06:08:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.522875
- Title: Novel View Synthesis from A Few Glimpses via Test-Time Natural Video Completion
- Title(参考訳): テスト時間自然映像コンプリートによる少数のグリップからの新たなビュー合成
- Authors: Yan Xu, Yixing Wang, Stella X. Yu,
- Abstract要約: 我々は,この課題を,エフェクト時間自然映像の完成として再放送し,エンフェスト付きビデオ拡散モデルからの先行情報を用いて,両立可能な視界を幻覚させる。
提案手法は, 極端に親和性が高い3D-GSベースラインを著しく上回る。
- 参考スコア(独自算出の注目度): 26.736148000386976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given just a few glimpses of a scene, can you imagine the movie playing out as the camera glides through it? That's the lens we take on \emph{sparse-input novel view synthesis}, not only as filling spatial gaps between widely spaced views, but also as \emph{completing a natural video} unfolding through space. We recast the task as \emph{test-time natural video completion}, using powerful priors from \emph{pretrained video diffusion models} to hallucinate plausible in-between views. Our \emph{zero-shot, generation-guided} framework produces pseudo views at novel camera poses, modulated by an \emph{uncertainty-aware mechanism} for spatial coherence. These synthesized frames densify supervision for \emph{3D Gaussian Splatting} (3D-GS) for scene reconstruction, especially in under-observed regions. An iterative feedback loop lets 3D geometry and 2D view synthesis inform each other, improving both the scene reconstruction and the generated views. The result is coherent, high-fidelity renderings from sparse inputs \emph{without any scene-specific training or fine-tuning}. On LLFF, DTU, DL3DV, and MipNeRF-360, our method significantly outperforms strong 3D-GS baselines under extreme sparsity.
- Abstract(参考訳): シーンを少し見ただけで、カメラが飛び回る様子を想像できますか?
これは、広く空間化されたビュー間の空間的ギャップを埋めるだけでなく、空間を通して展開する‘emph{completing a natural video’(自然ビデオのコンプリート)として、私たちが採用しているレンズです。
そこで我々は,この課題を<emph{test-time natural video completion} として再放送し,<emph{pretrained video diffusion model} からの強力な事前情報を用いて,両立可能な視界を幻覚させる。
本フレームワークは,空間コヒーレンスのための<emph{uncertainty-aware mechanism}によって変調された,新しいカメラポーズにおける擬似ビューを生成する。
これらの合成フレームは、特に観測されていない地域でのシーン再構築のためのemph{3D Gaussian Splatting} (3D-GS) の監督を強化する。
反復的なフィードバックループにより、3次元幾何と2次元ビュー合成が互いに情報を伝達し、シーン再構成と生成されたビューの両方を改善する。
その結果はスパース入力 \emph{without any scene-specific training or fine-tuning} からのコヒーレントで高忠実なレンダリングである。
LLFF, DTU, DL3DV, MipNeRF-360では, 極端間隔で3D-GSベースラインを著しく上回っている。
関連論文リスト
- 3D Scene Prompting for Scene-Consistent Camera-Controllable Video Generation [55.29423122177883]
3DScenePromptは任意の長さの入力から次のチャンクを生成するフレームワークである。
カメラの制御とシーンの一貫性の維持を可能にする。
我々のフレームワークは、シーンの一貫性、カメラ制御性、生成品質において、既存の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-10-16T17:55:25Z) - S^2VG: 3D Stereoscopic and Spatial Video Generation via Denoising Frame Matrix [60.060882467801484]
そこで本研究では,既製の単眼ビデオ生成モデルを利用して,没入型3Dビデオを生成する,ポーズフリーかつトレーニングフリーな手法を提案する。
提案手法はまず,生成したモノクロ映像を推定深度情報を用いて予め定義されたカメラ視点にワープし,新しいテキストフレーム・マトリクス・インペイント・フレームワークを適用した。
提案手法の有効性は,Sora, Lumiere, WALT, Zeroscope など,様々な生成モデルを用いた実験により検証した。
論文 参考訳(メタデータ) (2025-08-11T14:50:03Z) - Restage4D: Reanimating Deformable 3D Reconstruction from a Single Video [56.781766315691854]
ビデオ条件付き4D再生のための幾何学保存パイプラインである textbfRestage4D を紹介する。
DAVIS と PointOdyssey 上のRestage4D の有効性を検証し,幾何整合性,運動品質,3次元追跡性能の向上を実証した。
論文 参考訳(メタデータ) (2025-08-08T21:31:51Z) - Reconstruct, Inpaint, Finetune: Dynamic Novel-view Synthesis from Monocular Videos [44.36499624938911]
モノクロ映像からの動的シーンの新規ビュー合成について検討する。
私たちのアプローチは3つの重要な洞察に基づいています。
我々は,モノクロビデオから動的シーンを新規に合成する手法として,CagNVSがほとんどすべての先行技術より優れていることを実証的に検証した。
論文 参考訳(メタデータ) (2025-07-16T21:40:29Z) - WorldExplorer: Towards Generating Fully Navigable 3D Scenes [48.16064304951891]
WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。
私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。
我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
論文 参考訳(メタデータ) (2025-06-02T15:41:31Z) - Generating 360° Video is What You Need For a 3D Scene [31.11172135139431]
中間シーン表現として360degビデオを利用する実用的でスケーラブルなソリューションを提案する。
テキストプロンプトから3Dシーンを合成する生成パイプラインであるWorldPrompterを提案する。
WorldPrompterには条件付き360度パノラマビデオジェネレータが組み込まれており、仮想環境を歩いたり捉えたりする人をシミュレートする128フレームのビデオを生成することができる。
論文 参考訳(メタデータ) (2025-04-02T18:04:32Z) - Fast View Synthesis of Casual Videos with Soup-of-Planes [24.35962788109883]
シーンのダイナミックスやパララックスの欠如といった課題のため、Wild ビデオからの新たなビュー合成は困難である。
本稿では,モノクロ映像から高品質な新規ビューを効率よく合成するために,明示的な映像表現を再考する。
本手法は,高品質で最先端の手法に匹敵する品質の動画から高品質な新奇なビューをレンダリングすると同時に,トレーニングの100倍高速でリアルタイムレンダリングを可能にする。
論文 参考訳(メタデータ) (2023-12-04T18:55:48Z) - Deep 3D Mask Volume for View Synthesis of Dynamic Scenes [49.45028543279115]
120FPSのカスタム10カメラリグでキャプチャしたマルチビュービデオデータセットを提案する。
データセットには、屋外シーンにおけるさまざまな視覚効果と人間の相互作用を示す96の高品質なシーンが含まれている。
我々は,静的カメラで捉えた動的シーンの双眼映像から時間的に安定な視線外挿を可能にする新しいアルゴリズムであるDeep 3D Mask Volumeを開発した。
論文 参考訳(メタデータ) (2021-08-30T17:55:28Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。