論文の概要: ViewFusion: Learning Composable Diffusion Models for Novel View
Synthesis
- arxiv url: http://arxiv.org/abs/2402.02906v1
- Date: Mon, 5 Feb 2024 11:22:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 16:49:32.510386
- Title: ViewFusion: Learning Composable Diffusion Models for Novel View
Synthesis
- Title(参考訳): ViewFusion:新しいビュー合成のための構成可能な拡散モデル学習
- Authors: Bernard Spiegl, Andrea Perin, St\'ephane Deny, Alexander Ilin
- Abstract要約: この研究は、新しいビュー合成に対する最先端のエンドツーエンド生成アプローチであるViewFusionを導入している。
ViewFusionは、シーンの任意の入力ビューに拡散デノゲーションステップを同時に適用する。
- 参考スコア(独自算出の注目度): 47.57948804514928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning is providing a wealth of new approaches to the old problem of
novel view synthesis, from Neural Radiance Field (NeRF) based approaches to
end-to-end style architectures. Each approach offers specific strengths but
also comes with specific limitations in their applicability. This work
introduces ViewFusion, a state-of-the-art end-to-end generative approach to
novel view synthesis with unparalleled flexibility. ViewFusion consists in
simultaneously applying a diffusion denoising step to any number of input views
of a scene, then combining the noise gradients obtained for each view with an
(inferred) pixel-weighting mask, ensuring that for each region of the target
scene only the most informative input views are taken into account. Our
approach resolves several limitations of previous approaches by (1) being
trainable and generalizing across multiple scenes and object classes, (2)
adaptively taking in a variable number of pose-free views at both train and
test time, (3) generating plausible views even in severely undetermined
conditions (thanks to its generative nature) -- all while generating views of
quality on par or even better than state-of-the-art methods. Limitations
include not generating a 3D embedding of the scene, resulting in a relatively
slow inference speed, and our method only being tested on the relatively small
dataset NMR. Code is available.
- Abstract(参考訳): ディープラーニングは、Neural Radiance Field(NeRF)ベースのアプローチからエンドツーエンドスタイルアーキテクチャに至るまで、新しいビュー合成の古い問題に対する、数多くの新しいアプローチを提供しています。
それぞれのアプローチには特定の強みがあるが、適用性には特定の制限がある。
この研究は、非並列な柔軟性を備えた新しいビュー合成に対する最先端のエンドツーエンド生成アプローチであるViewFusionを導入している。
ViewFusionは、シーンの任意の入力ビューに対して拡散遅延ステップを同時に適用し、各ビューで得られたノイズ勾配を(推定)画素重みマスクと組み合わせ、ターゲットシーンの各領域において最も情報性の高い入力ビューのみを考慮に入れることを保証する。
従来のアプローチでは,(1)複数のシーンとオブジェクトクラスを訓練し,一般化すること,(2)列車とテスト時間の両方で,さまざまなポーズフリービューを適応的に取得すること,(3)非常に不確定な状況(生成的性質のため)においても,妥当なビューを生成すること,など,いくつかの制限が解決されている。
制限には、シーンの3D埋め込みを発生させないことが含まれており、結果として推論速度は比較的遅く、我々の手法は比較的小さなデータセットNMRでのみテストされる。
コードは利用可能。
関連論文リスト
- MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - ViewFusion: Towards Multi-View Consistency via Interpolated Denoising [48.02829400913904]
既存のトレーニング済み拡散モデルにシームレスに統合可能なトレーニングフリーアルゴリズムであるViewFusionを導入する。
提案手法では,事前生成したビューを,次のビュー生成のコンテキストとして暗黙的に活用する自動回帰手法を採用する。
我々のフレームワークは、追加の微調整なしで複数ビュー条件設定で機能するように、単一ビュー条件付きモデルをうまく拡張しました。
論文 参考訳(メタデータ) (2024-02-29T04:21:38Z) - VaLID: Variable-Length Input Diffusion for Novel View Synthesis [36.57742242154048]
新たなビュー合成(NVS)は、3次元ビジョンの基本的な問題である。
それぞれのポーズ画像ペアを別々に処理し、それらを統一された視覚表現として融合させ、モデルに注入する。
可変長入力データを固定サイズ出力データにマッピングする多視点クロス前置モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-14T12:52:53Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models [16.326276673056334]
Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。
我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。
本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:57Z) - Multi-Plane Neural Radiance Fields for Novel View Synthesis [5.478764356647437]
新しいビュー合成は、新しいカメラの視点からシーンのフレームを描画する、長年にわたる問題である。
本研究では, 単面多面体ニューラル放射場の性能, 一般化, 効率について検討する。
合成結果の改善と視聴範囲の拡大のために,複数のビューを受理する新しい多面体NeRFアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-03T06:32:55Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。
レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文 参考訳(メタデータ) (2021-02-25T18:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。