論文の概要: WildCAT3D: Appearance-Aware Multi-View Diffusion in the Wild
- arxiv url: http://arxiv.org/abs/2506.13030v1
- Date: Mon, 16 Jun 2025 01:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.306266
- Title: WildCAT3D: Appearance-Aware Multi-View Diffusion in the Wild
- Title(参考訳): WildCAT3D: 野生での出現を意識したマルチビュー拡散
- Authors: Morris Alper, David Novotny, Filippos Kokkinos, Hadar Averbuch-Elor, Tom Monnier,
- Abstract要約: 本研究では,野生で撮影された多様な2次元映像データから得られたシーンの新たなビューを生成するフレームワークWildCAT3Dを提案する。
トレーニングされたモデルは、推論時に新しいシーンに一般化し、複数の一貫した新しいビューを生成する。
- 参考スコア(独自算出の注目度): 19.99651550153042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in sparse novel view synthesis (NVS) applied to object-centric scenes, scene-level NVS remains a challenge. A central issue is the lack of available clean multi-view training data, beyond manually curated datasets with limited diversity, camera variation, or licensing issues. On the other hand, an abundance of diverse and permissively-licensed data exists in the wild, consisting of scenes with varying appearances (illuminations, transient occlusions, etc.) from sources such as tourist photos. To this end, we present WildCAT3D, a framework for generating novel views of scenes learned from diverse 2D scene image data captured in the wild. We unlock training on these data sources by explicitly modeling global appearance conditions in images, extending the state-of-the-art multi-view diffusion paradigm to learn from scene views of varying appearances. Our trained model generalizes to new scenes at inference time, enabling the generation of multiple consistent novel views. WildCAT3D provides state-of-the-art results on single-view NVS in object- and scene-level settings, while training on strictly less data sources than prior methods. Additionally, it enables novel applications by providing global appearance control during generation.
- Abstract(参考訳): オブジェクト中心のシーンに適用されたスパースノベルビュー合成(NVS)の最近の進歩にもかかわらず、シーンレベルのNVSは依然として課題である。
中心的な問題は、多様性、カメラのバリエーション、ライセンシングの問題に制限された手動でキュレートされたデータセット以外の、クリーンなマルチビュートレーニングデータがないことだ。
一方、観光写真などの資料から様々な外観(照らし、過渡的な閉塞など)のシーンからなる多彩で寛容なデータが野生に存在する。
この目的のために,野生で撮影された多様な2次元シーン画像データから得られたシーンの新たなビューを生成するフレームワークWildCAT3Dを提案する。
我々は、画像のグローバルな外観条件を明示的にモデル化し、様々な外観のシーンビューから学ぶために最先端の多視点拡散パラダイムを拡張して、これらのデータソースのトレーニングをアンロックする。
トレーニングされたモデルは、推論時に新しいシーンに一般化し、複数の一貫した新しいビューを生成する。
WildCAT3Dは、オブジェクトレベルの設定とシーンレベルの設定において、シングルビューのNVSで最先端の結果を提供すると同時に、以前の方法よりも厳格に少ないデータソースでトレーニングする。
さらに、世代毎にグローバルな外観制御を提供することで、新しいアプリケーションを可能にする。
関連論文リスト
- Fake It To Make It: Virtual Multiviews to Enhance Monocular Indoor Semantic Scene Completion [0.8669877024051931]
Indoor Semantic Scene Completionは、屋内シーンの単一のRGB画像から3Dセマンティック占有マップを再構築することを目的としている。
我々は、新しいビュー合成とマルチビュー融合を活用する革新的なアプローチを導入する。
我々は、NYUv2データセット上の既存のSSCネットワークと統合した場合、Scene Completionの最大2.8%、Semantic Scene Completionの4.9%のIoUスコアの改善を実証する。
論文 参考訳(メタデータ) (2025-03-07T02:09:38Z) - Incremental Multi-Scene Modeling via Continual Neural Graphics Primitives [17.411855207380256]
連続ニューラルネットワークプリミティブ(Continuous-Neural Graphics Primitives, C-NGP)は,複数のシーンを段階的に1つの神経放射場に統合する,新しい連続学習フレームワークである。
C-NGPは古いデータにアクセスすることなく新しいシーンに適応する。
我々は、C-NGPがパラメータ数を増やすことなく複数のシーンに対応できることを示し、合成および実データに対する高品質なノベルビューレンダリングを生成する。
論文 参考訳(メタデータ) (2024-11-29T18:05:16Z) - 3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance [61.06034736050515]
単一入力画像からカメラ制御された視点を生成する方法を提案する。
本手法は,広範囲なトレーニングや3Dおよびマルチビューデータなしで,複雑で多様なシーンを処理できることに優れる。
論文 参考訳(メタデータ) (2024-08-12T13:53:40Z) - MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。
MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。
我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-17T17:55:55Z) - DORSal: Diffusion for Object-centric Representations of Scenes et al [28.181157214966493]
最近の3Dシーン理解の進歩は、多様なシーンの大きなデータセットにわたる表現のスケーラブルな学習を可能にする。
本研究では,凍結したオブジェクト中心のスロットベースのシーン表現を条件とした3次元シーン生成にビデオ拡散アーキテクチャを適用したDORSalを提案する。
論文 参考訳(メタデータ) (2023-06-13T18:32:35Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。