Fugu-MT 論文翻訳(概要): ViewFusion: Learning Composable Diffusion Models for Novel View Synthesis

論文の概要: ViewFusion: Learning Composable Diffusion Models for Novel View Synthesis

arxiv url: http://arxiv.org/abs/2402.02906v1
Date: Mon, 5 Feb 2024 11:22:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 16:49:32.510386
Title: ViewFusion: Learning Composable Diffusion Models for Novel View Synthesis
Title（参考訳）: ViewFusion:新しいビュー合成のための構成可能な拡散モデル学習
Authors: Bernard Spiegl, Andrea Perin, St\'ephane Deny, Alexander Ilin
Abstract要約: この研究は、新しいビュー合成に対する最先端のエンドツーエンド生成アプローチであるViewFusionを導入している。 ViewFusionは、シーンの任意の入力ビューに拡散デノゲーションステップを同時に適用する。
参考スコア（独自算出の注目度）: 47.57948804514928
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep learning is providing a wealth of new approaches to the old problem of novel view synthesis, from Neural Radiance Field (NeRF) based approaches to end-to-end style architectures. Each approach offers specific strengths but also comes with specific limitations in their applicability. This work introduces ViewFusion, a state-of-the-art end-to-end generative approach to novel view synthesis with unparalleled flexibility. ViewFusion consists in simultaneously applying a diffusion denoising step to any number of input views of a scene, then combining the noise gradients obtained for each view with an (inferred) pixel-weighting mask, ensuring that for each region of the target scene only the most informative input views are taken into account. Our approach resolves several limitations of previous approaches by (1) being trainable and generalizing across multiple scenes and object classes, (2) adaptively taking in a variable number of pose-free views at both train and test time, (3) generating plausible views even in severely undetermined conditions (thanks to its generative nature) -- all while generating views of quality on par or even better than state-of-the-art methods. Limitations include not generating a 3D embedding of the scene, resulting in a relatively slow inference speed, and our method only being tested on the relatively small dataset NMR. Code is available.
Abstract（参考訳）: ディープラーニングは、Neural Radiance Field(NeRF)ベースのアプローチからエンドツーエンドスタイルアーキテクチャに至るまで、新しいビュー合成の古い問題に対する、数多くの新しいアプローチを提供しています。それぞれのアプローチには特定の強みがあるが、適用性には特定の制限がある。この研究は、非並列な柔軟性を備えた新しいビュー合成に対する最先端のエンドツーエンド生成アプローチであるViewFusionを導入している。 ViewFusionは、シーンの任意の入力ビューに対して拡散遅延ステップを同時に適用し、各ビューで得られたノイズ勾配を(推定)画素重みマスクと組み合わせ、ターゲットシーンの各領域において最も情報性の高い入力ビューのみを考慮に入れることを保証する。従来のアプローチでは,(1)複数のシーンとオブジェクトクラスを訓練し,一般化すること,(2)列車とテスト時間の両方で,さまざまなポーズフリービューを適応的に取得すること,(3)非常に不確定な状況(生成的性質のため)においても,妥当なビューを生成すること,など,いくつかの制限が解決されている。制限には、シーンの3D埋め込みを発生させないことが含まれており、結果として推論速度は比較的遅く、我々の手法は比較的小さなデータセットNMRでのみテストされる。コードは利用可能。

関連論文リスト

AR-1-to-3: Single Image to Consistent 3D Object Generation via Next-View Prediction [69.65671384868344]
拡散モデルに基づく新しい次世代予測パラダイムAR-1-to-3を提案する。提案手法は,生成したビューと入力ビューとの整合性を大幅に改善し,高忠実度3Dアセットを生成する。
論文参考訳（メタデータ） (2025-03-17T08:39:10Z)
Synthesizing Consistent Novel Views via 3D Epipolar Attention without Re-Training [102.82553402539139]
大規模な拡散モデルでは、単一画像からの新規なビュー合成において顕著なゼロショット機能を示す。これらのモデルは、新規および参照ビュー間の一貫性を維持する上で、しばしば課題に直面します。入力ビューから重なり合う情報の探索と検索にエピポーラ幾何を用いることを提案する。この情報はターゲットビューの生成に組み込まれ、トレーニングや微調整の必要がなくなる。
論文参考訳（メタデータ） (2025-02-25T14:04:22Z)
MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-26T17:53:51Z)
ViewFusion: Towards Multi-View Consistency via Interpolated Denoising [48.02829400913904]
既存のトレーニング済み拡散モデルにシームレスに統合可能なトレーニングフリーアルゴリズムであるViewFusionを導入する。提案手法では,事前生成したビューを,次のビュー生成のコンテキストとして暗黙的に活用する自動回帰手法を採用する。我々のフレームワークは、追加の微調整なしで複数ビュー条件設定で機能するように、単一ビュー条件付きモデルをうまく拡張しました。
論文参考訳（メタデータ） (2024-02-29T04:21:38Z)
VaLID: Variable-Length Input Diffusion for Novel View Synthesis [36.57742242154048]
新たなビュー合成(NVS)は、3次元ビジョンの基本的な問題である。それぞれのポーズ画像ペアを別々に処理し、それらを統一された視覚表現として融合させ、モデルに注入する。可変長入力データを固定サイズ出力データにマッピングする多視点クロス前置モジュールを提案する。
論文参考訳（メタデータ） (2023-12-14T12:52:53Z)
UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文参考訳（メタデータ） (2023-12-11T18:59:55Z)
Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models [16.326276673056334]
Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文参考訳（メタデータ） (2023-10-04T17:58:57Z)
Multi-Plane Neural Radiance Fields for Novel View Synthesis [5.478764356647437]
新しいビュー合成は、新しいカメラの視点からシーンのフレームを描画する、長年にわたる問題である。本研究では, 単面多面体ニューラル放射場の性能, 一般化, 効率について検討する。合成結果の改善と視聴範囲の拡大のために,複数のビューを受理する新しい多面体NeRFアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-03-03T06:32:55Z)
Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。 3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文参考訳（メタデータ） (2022-10-06T16:59:56Z)
Vision Transformer for NeRF-Based View Synthesis from a Single Input Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文参考訳（メタデータ） (2022-07-12T17:52:04Z)
IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文参考訳（メタデータ） (2021-02-25T18:56:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。