論文の概要: AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2604.19747v1
- Date: Tue, 21 Apr 2026 17:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.921462
- Title: AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model
- Title(参考訳): AnyRecon: ビデオ拡散モデルによる任意視野3D再構成
- Authors: Yutian Chen, Shi Guo, Renbiao Jin, Tianshuo Yang, Xin Cai, Yawen Luo, Mingxin Yang, Mulin Yu, Linning Xu, Tianfan Xue,
- Abstract要約: カジュアルキャプチャーからシーンをモデリングするためにはスパースビュー3D再構成が不可欠であるが、非生成的再構築には依然として困難である。
我々は任意のスパース入力から復元するスケーラブルなフレームワークであるAnyReconを提案する。
実験では、不規則な入力、大きな視点ギャップ、長い軌道をまたいだ堅牢でスケーラブルな再構築が示されている。
- 参考スコア(独自算出の注目度): 29.087865646035695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse-view 3D reconstruction is essential for modeling scenes from casual captures, but remain challenging for non-generative reconstruction. Existing diffusion-based approaches mitigates this issues by synthesizing novel views, but they often condition on only one or two capture frames, which restricts geometric consistency and limits scalability to large or diverse scenes. We propose AnyRecon, a scalable framework for reconstruction from arbitrary and unordered sparse inputs that preserves explicit geometric control while supporting flexible conditioning cardinality. To support long-range conditioning, our method constructs a persistent global scene memory via a prepended capture view cache, and removes temporal compression to maintain frame-level correspondence under large viewpoint changes. Beyond better generative model, we also find that the interplay between generation and reconstruction is crucial for large-scale 3D scenes. Thus, we introduce a geometry-aware conditioning strategy that couples generation and reconstruction through an explicit 3D geometric memory and geometry-driven capture-view retrieval. To ensure efficiency, we combine 4-step diffusion distillation with context-window sparse attention to reduce quadratic complexity. Extensive experiments demonstrate robust and scalable reconstruction across irregular inputs, large viewpoint gaps, and long trajectories.
- Abstract(参考訳): カジュアルキャプチャーからシーンをモデリングするためにはスパースビュー3D再構成が不可欠であるが、非生成的再構築には依然として困難である。
既存の拡散ベースのアプローチは、新しいビューを合成することによってこの問題を軽減するが、しばしば1つか2つのキャプチャフレームだけを条件にしており、これは幾何的一貫性を制限し、拡張性を大きなシーンや多様なシーンに制限する。
任意かつ順序のないスパース入力から復元するスケーラブルなフレームワークであるAnyReconを提案する。
長距離条件付けを支援するため,提案手法では,予め設定したキャプチャビューキャッシュを用いて,永続的なグローバルシーンメモリを構築し,時間圧縮を除去し,大局的な視点変化下でフレームレベルの対応を維持する。
生成モデルの改善に加えて、大規模な3Dシーンでは、生成と再構築の相互作用が不可欠であることもわかりました。
そこで我々は,3次元形状記憶と幾何駆動のキャプチャビュー検索によって生成と再構成を結合する幾何学的条件付け手法を提案する。
効率性を確保するため,4段階の拡散蒸留法とコンテキスト・ウインドウ・スパース・アテンションを併用して2次複雑性を低減した。
大規模な実験では、不規則な入力、大きな視点ギャップ、長い軌道にまたがる堅牢でスケーラブルな再構築が示されている。
関連論文リスト
- Lyra 2.0: Explorable Generative 3D Worlds [77.45279013687427]
Lyra 2.0は、永続的で探索可能な3D世界を大規模に生成するためのフレームワークです。
空間的忘れに対処するため、フレームごとの3D形状を維持し、情報ルーティングのみに使用します。
自己拡張された履歴をトレーニングして、モデルを自身の劣化した出力に公開し、それを伝播するのではなく、ドリフトを正すように教えます。
論文 参考訳(メタデータ) (2026-04-14T17:59:44Z) - I3DM: Implicit 3D-aware Memory Retrieval and Injection for Consistent Video Scene Generation [56.33710337846449]
I3DMは、一貫した映像シーン生成のための暗黙的な3D対応メモリ機構である。
われわれのアプローチの核心は3D対応メモリ検索戦略である。
検索した履歴フレームをフル活用するために,3次元メモリインジェクションモジュールを導入する。
論文 参考訳(メタデータ) (2026-03-24T16:45:40Z) - AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories [78.78355829813793]
既存のメモリベースのアプローチでは、歴史的に再構成された幾何学のアンカービデオをレンダリングすることで、グローバルに再構成された3Dシーンを条件付けすることが多い。
AnchorWeaveは、単一の不整合グローバルメモリを複数のローカルな幾何学的メモリに置き換える、メモリ拡張ビデオ生成フレームワークである。
実験によると、AnchorWeaveは視覚的品質を維持しながら、長期的なシーンの一貫性を著しく向上する。
論文 参考訳(メタデータ) (2026-02-16T17:23:08Z) - GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。
SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。
トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文 参考訳(メタデータ) (2025-05-17T13:05:13Z) - GenFusion: Closing the Loop between Reconstruction and Generation via Videos [24.195304481751602]
本稿では,再現性のあるRGB-Dレンダリングにおける映像フレームの条件付けを学習する再構成駆動型ビデオ拡散モデルを提案する。
また、生成モデルからトレーニングセットへの復元フレームを反復的に追加する循環核融合パイプラインを提案する。
論文 参考訳(メタデータ) (2025-03-27T07:16:24Z) - MUSt3R: Multi-view Network for Stereo 3D Reconstruction [11.61182864709518]
本稿では,DUSt3Rのペアから複数のビューへの拡張を提案する。
計算複雑性を低減できる多層メモリ機構でモデルを拡張します。
このフレームワークは、オフラインとオンラインの両方で3D再構成を実行するように設計されているため、SfMとビジュアルSLAMシナリオにシームレスに適用できる。
論文 参考訳(メタデータ) (2025-03-03T15:36:07Z) - BloomScene: Lightweight Structured 3D Gaussian Splatting for Crossmodal Scene Generation [54.12899218104669]
3Dシーンは非常に複雑な構造を持ち、出力が密度が高く、一貫性があり、必要な全ての構造を含むことを保証する必要がある。
現在の3Dシーン生成法は、事前訓練されたテキスト・画像拡散モデルと単眼深度推定器に依存している。
クロスモーダルシーン生成のための軽量な3次元ガウススプラッティングであるBloomSceneを提案する。
論文 参考訳(メタデータ) (2025-01-15T11:33:34Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。