論文の概要: World Reconstruction From Inconsistent Views
- arxiv url: http://arxiv.org/abs/2603.16736v1
- Date: Tue, 17 Mar 2026 16:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.40655
- Title: World Reconstruction From Inconsistent Views
- Title(参考訳): 不整合から見た世界復興
- Authors: Lukas Höllein, Matthias Nießner,
- Abstract要約: ビデオ拡散モデルは多様な世界を生成するが、個々のフレームは出力シーケンス全体の3D一貫性を欠いていることが多い。
ビデオフレームをグローバルに一貫性のある座標フレームに厳密に整列させることにより、これらの不整合を処理する新しい手法を提案する。
我々は,我々の3Dシーンがベースラインよりも高品質であることを示し,映像モデルを効果的に3D一貫性のあるワールドジェネレータにする。
- 参考スコア(独自算出の注目度): 54.12773637505746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video diffusion models generate high-quality and diverse worlds; however, individual frames often lack 3D consistency across the output sequence, which makes the reconstruction of 3D worlds difficult. To this end, we propose a new method that handles these inconsistencies by non-rigidly aligning the video frames into a globally-consistent coordinate frame that produces sharp and detailed pointcloud reconstructions. First, a geometric foundation model lifts each frame into a pixel-wise 3D pointcloud, which contains unaligned surfaces due to these inconsistencies. We then propose a tailored non-rigid iterative frame-to-model ICP to obtain an initial alignment across all frames, followed by a global optimization that further sharpens the pointcloud. Finally, we leverage this pointcloud as initialization for 3D reconstruction and propose a novel inverse deformation rendering loss to create high quality and explorable 3D environments from inconsistent views. We demonstrate that our 3D scenes achieve higher quality than baselines, effectively turning video models into 3D-consistent world generators.
- Abstract(参考訳): ビデオ拡散モデルは高品質で多様な世界を生成するが、個々のフレームは出力シーケンス全体で3次元の一貫性を欠くことが多く、3次元世界の再構築が困難になる。
そこで本研究では,これらの不整合をビデオフレームを,鮮明かつ詳細なポイントクラウド再構成を生成するグローバル一貫性座標フレームに厳密に整列させることにより処理する手法を提案する。
まず、幾何学的基礎モデルにより、各フレームを画素単位の3Dポイントクラウドに持ち上げる。
次に、全てのフレームをまたいだ初期アライメントを得るための、厳密でない反復的フレーム・ツー・モデルICPを提案する。
最後に、この点雲を3次元再構成の初期化として利用し、不整合性から高品質で探索可能な3次元環境を作成するために、新しい逆変形レンダリング損失を提案する。
我々は,我々の3Dシーンがベースラインよりも高品質であることを示し,映像モデルを効果的に3D一貫性のあるワールドジェネレータにする。
関連論文リスト
- OneWorld: Taming Scene Generation with 3D Unified Representation Autoencoder [90.8453349494245]
本研究では,コヒーレントな3次元表現空間内で直接拡散を行うOneWorldを提案する。
OneWorldは、最先端の2Dベースの方法と比較して、クロスビューの一貫性に優れた高品質な3Dシーンを生成する。
論文 参考訳(メタデータ) (2026-03-17T03:43:37Z) - Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation [66.95956271144982]
本稿では,単一画像から一貫した3Dポイントクラウドシーケンスを生成する新しいビデオ拡散フレームワークであるVoyagerを紹介する。
既存のアプローチとは異なり、Voyagerはフレーム間で固有の一貫性を持って、エンドツーエンドのシーン生成と再構築を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:59:04Z) - Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。
遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。
本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:58:42Z) - ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model [16.14713604672497]
ReconXは、時間生成タスクとして曖昧な再構築課題を再編成する、新しい3Dシーン再構築パラダイムである。
提案したReconXはまずグローバルポイントクラウドを構築し、3D構造条件としてコンテキスト空間にエンコードする。
この条件に導かれ、ビデオ拡散モデルは、ディテール保存され、高い3D一貫性を示すビデオフレームを合成する。
論文 参考訳(メタデータ) (2024-08-29T17:59:40Z) - LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。
彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。
生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文 参考訳(メタデータ) (2024-05-24T15:09:12Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。