論文の概要: NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images
- arxiv url: http://arxiv.org/abs/2412.03517v1
- Date: Wed, 04 Dec 2024 17:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:07:53.900921
- Title: NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images
- Title(参考訳): NVComposer:複数スパース画像と非ポーズ画像による新規ビュー生成の促進
- Authors: Lingen Li, Zhaoyang Zhang, Yaowei Li, Jiale Xu, Xiaoyu Li, Wenbo Hu, Weihao Cheng, Jinwei Gu, Tianfan Xue, Ying Shan,
- Abstract要約: NVComposerは、明示的な外部アライメントの必要性を排除する新しいアプローチである。
生成的マルチビューNVSタスクにおける最先端のパフォーマンスを実現し、外部アライメントへの依存を取り除く。
提案手法は, 入力ビュー数の増加に伴い, 合成品質が大幅に向上したことを示す。
- 参考スコア(独自算出の注目度): 50.36605863731669
- License:
- Abstract: Recent advancements in generative models have significantly improved novel view synthesis (NVS) from multi-view data. However, existing methods depend on external multi-view alignment processes, such as explicit pose estimation or pre-reconstruction, which limits their flexibility and accessibility, especially when alignment is unstable due to insufficient overlap or occlusions between views. In this paper, we propose NVComposer, a novel approach that eliminates the need for explicit external alignment. NVComposer enables the generative model to implicitly infer spatial and geometric relationships between multiple conditional views by introducing two key components: 1) an image-pose dual-stream diffusion model that simultaneously generates target novel views and condition camera poses, and 2) a geometry-aware feature alignment module that distills geometric priors from dense stereo models during training. Extensive experiments demonstrate that NVComposer achieves state-of-the-art performance in generative multi-view NVS tasks, removing the reliance on external alignment and thus improving model accessibility. Our approach shows substantial improvements in synthesis quality as the number of unposed input views increases, highlighting its potential for more flexible and accessible generative NVS systems.
- Abstract(参考訳): 生成モデルの最近の進歩は、マルチビューデータからの新規ビュー合成(NVS)を大幅に改善した。
しかし、既存の手法は、明示的なポーズ推定や事前再構成のような外部の多視点アライメントプロセスに依存しており、特にビュー間のオーバーラップやオクルージョンが不十分なためにアライメントが不安定な場合に、その柔軟性とアクセシビリティを制限している。
本稿では, 外部アライメントの必要性を解消する新しい手法であるNVComposerを提案する。
NVComposerにより、生成モデルは2つの重要な要素を導入することで、複数の条件ビュー間の空間的および幾何学的関係を暗黙的に推測することができる。
1)ターゲットの新規ビューとコンディションカメラのポーズを同時に生成する画像目的デュアルストリーム拡散モデル
2) トレーニング中に高密度ステレオモデルから幾何前駆体を蒸留する幾何認識機能アライメントモジュール。
大規模な実験により、NVComposerは、生成的マルチビューNVSタスクにおいて最先端のパフォーマンスを実現し、外部アライメントへの依存を排除し、モデルアクセシビリティを向上させる。
提案手法は, 入力ビュー数の増加に伴い, 合成品質が大幅に向上し, よりフレキシブルでアクセスしやすい生成NVSシステムの可能性を強調した。
関連論文リスト
- Novel View Synthesis with Pixel-Space Diffusion Models [4.844800099745365]
新規ビュー合成(NVS)に遺伝子モデルがますます採用されている
画素空間における終端NVSに対して,現代的な拡散モデルアーキテクチャを適用した。
単視点データセットを利用した新しいNVSトレーニングスキームを導入し,その相対的多元性に着目した。
論文 参考訳(メタデータ) (2024-11-12T12:58:33Z) - Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - NVS-Solver: Video Diffusion Model as Zero-Shot Novel View Synthesizer [48.57740681957145]
そこで本研究では,テキストを不要に操作する新しいビュー合成(NVS)パラダイムを提案する。
NVS-rは、所定のビューで拡散サンプリングプロセスを適応的に変調し、目覚しい視覚体験の作成を可能にする。
論文 参考訳(メタデータ) (2024-05-24T08:56:19Z) - NVS-Adapter: Plug-and-Play Novel View Synthesis from a Single Image [45.34977005820166]
NVS-Adapterは、Text-to-Image(T2I)モデルのプラグインモジュールである。
T2Iモデルの一般化能力を完全に活用しながら、新しい視覚オブジェクトのマルチビューを合成する。
実験により,NVS-Adapterは幾何的に一貫した多視点を効果的に合成できることが示されている。
論文 参考訳(メタデータ) (2023-12-12T14:29:57Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - Consistent123: Improve Consistency for One Image to 3D Object Synthesis [74.1094516222327]
大規模な画像拡散モデルは、高品質で優れたゼロショット機能を備えた新規なビュー合成を可能にする。
これらのモデルは、ビュー一貫性の保証がなく、3D再構成や画像から3D生成といった下流タスクのパフォーマンスが制限される。
本稿では,新しい視点を同時に合成するConsistent123を提案する。
論文 参考訳(メタデータ) (2023-10-12T07:38:28Z) - Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models [16.326276673056334]
Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。
我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。
本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。