論文の概要: Novel View Synthesis with Pixel-Space Diffusion Models
- arxiv url: http://arxiv.org/abs/2411.07765v1
- Date: Tue, 12 Nov 2024 12:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:21:13.141103
- Title: Novel View Synthesis with Pixel-Space Diffusion Models
- Title(参考訳): 画素空間拡散モデルによる新しいビュー合成
- Authors: Noam Elata, Bahjat Kawar, Yaron Ostrovsky-Berman, Miriam Farber, Ron Sokolovsky,
- Abstract要約: 新規ビュー合成(NVS)に遺伝子モデルがますます採用されている
画素空間における終端NVSに対して,現代的な拡散モデルアーキテクチャを適用した。
単視点データセットを利用した新しいNVSトレーニングスキームを導入し,その相対的多元性に着目した。
- 参考スコア(独自算出の注目度): 4.844800099745365
- License:
- Abstract: Synthesizing a novel view from a single input image is a challenging task. Traditionally, this task was approached by estimating scene depth, warping, and inpainting, with machine learning models enabling parts of the pipeline. More recently, generative models are being increasingly employed in novel view synthesis (NVS), often encompassing the entire end-to-end system. In this work, we adapt a modern diffusion model architecture for end-to-end NVS in the pixel space, substantially outperforming previous state-of-the-art (SOTA) techniques. We explore different ways to encode geometric information into the network. Our experiments show that while these methods may enhance performance, their impact is minor compared to utilizing improved generative models. Moreover, we introduce a novel NVS training scheme that utilizes single-view datasets, capitalizing on their relative abundance compared to their multi-view counterparts. This leads to improved generalization capabilities to scenes with out-of-domain content.
- Abstract(参考訳): 単一の入力画像から新しいビューを合成するのは難しい作業です。
従来、このタスクは、パイプラインの一部を可能にする機械学習モデルを使用して、シーン深さ、ワープ、インペイントの推定によってアプローチされていた。
最近では、生成モデルが新しいビュー合成(NVS)にますます採用され、しばしばエンドツーエンドシステム全体を包含している。
本研究では,最新の拡散モデルアーキテクチャを画素空間の終端NVSに適用し,従来のSOTA(State-of-the-art)技術を大幅に上回っている。
我々は幾何学的情報をネットワークにエンコードする方法を探究する。
実験の結果, これらの手法は性能を向上させるが, 改良された生成モデルに比べて影響は小さいことがわかった。
さらに,シングルビューデータセットを利用した新しいNVSトレーニング手法を導入する。
これにより、ドメイン外コンテンツを持つシーンへの一般化機能が向上する。
関連論文リスト
- Aug3D: Augmenting large scale outdoor datasets for Generalizable Novel View Synthesis [1.2420608329006513]
大規模なUrbanScene3Dデータセット上で,フィードフォワードNVSモデルであるPixelNeRFをトレーニングする。
Aug3Dは、フィードフォワードNVSモデル学習を強化するために、グリッドとセマンティックサンプリングを通じて、よく調和した新しいビューを生成する。
実験の結果,クラスタ毎のビュー数を20から10に削減することでPSNRが10%向上することがわかった。
論文 参考訳(メタデータ) (2025-01-11T04:13:26Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes [35.16430027877207]
MOVISは、多目的NVSのためのビュー条件拡散モデルの構造的認識を高めることを目的としている。
本稿では,新しいビューオブジェクトマスクを同時に予測するためにモデルを必要とする補助タスクを提案する。
合成画像の可視性を評価するために,クロスビューの一貫性と新しいビューオブジェクト配置を評価する。
論文 参考訳(メタデータ) (2024-12-16T05:23:45Z) - NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images [50.36605863731669]
NVComposerは、明示的な外部アライメントの必要性を排除する新しいアプローチである。
NVComposerは、生成的マルチビューNVSタスクにおいて最先端のパフォーマンスを達成する。
提案手法は, 入力ビュー数の増加に伴い, 合成品質が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-12-04T17:58:03Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - GenS: Generalizable Neural Surface Reconstruction from Multi-View Images [20.184657468900852]
GenSは、エンドツーエンドの一般化可能なニューラルサーフェス再構成モデルである。
我々の表現はより強力であり、グローバルな滑らかさを維持しながら高周波の詳細を回復することができる。
人気のあるベンチマーク実験により、我々のモデルは新たなシーンにうまく一般化できることが示された。
論文 参考訳(メタデータ) (2024-06-04T17:13:10Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Enhancing NeRF akin to Enhancing LLMs: Generalizable NeRF Transformer
with Mixture-of-View-Experts [88.23732496104667]
クロスシーンの一般化可能なNeRFモデルは、NeRFフィールドの新たなスポットライトとなっている。
我々は、大規模言語モデルから強力なMixture-of-Experts(MoE)のアイデアを"神経化"アーキテクチャにブリッジする。
提案手法は,GNT-MOVE (Mixture-of-View-Experts) とよばれるモデルで,未知のシーンに移動する際の最先端の結果を実験的に示す。
論文 参考訳(メタデータ) (2023-08-22T21:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。