論文の概要: ViewFusion: Learning Composable Diffusion Models for Novel View Synthesis
- arxiv url: http://arxiv.org/abs/2402.02906v2
- Date: Wed, 04 Jun 2025 19:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.117611
- Title: ViewFusion: Learning Composable Diffusion Models for Novel View Synthesis
- Title(参考訳): ViewFusion:新しいビュー合成のための構成可能な拡散モデル学習
- Authors: Bernard Spiegl, Andrea Perin, Stéphane Deny, Alexander Ilin,
- Abstract要約: ViewFusionは、非並列な柔軟性を備えた新しいビュー合成に対するエンドツーエンドのジェネレーティブアプローチである。
本手法は比較的小さなNeural 3D Mesh Rendererデータセットで検証する。
- 参考スコア(独自算出の注目度): 47.0052408875896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning is providing a wealth of new approaches to the problem of novel view synthesis, from Neural Radiance Field (NeRF) based approaches to end-to-end style architectures. Each approach offers specific strengths but also comes with limitations in their applicability. This work introduces ViewFusion, an end-to-end generative approach to novel view synthesis with unparalleled flexibility. ViewFusion consists in simultaneously applying a diffusion denoising step to any number of input views of a scene, then combining the noise gradients obtained for each view with an (inferred) pixel-weighting mask, ensuring that for each region of the target view only the most informative input views are taken into account. Our approach resolves several limitations of previous approaches by (1) being trainable and generalizing across multiple scenes and object classes, (2) adaptively taking in a variable number of pose-free views at both train and test time, (3) generating plausible views even in severely underdetermined conditions (thanks to its generative nature) -- all while generating views of quality on par or even better than comparable methods. Limitations include not generating a 3D embedding of the scene, resulting in a relatively slow inference speed, and our method only being tested on the relatively small Neural 3D Mesh Renderer dataset. Code is available at https://github.com/bronemos/view-fusion.
- Abstract(参考訳): ディープラーニングは、Neural Radiance Field(NeRF)ベースのアプローチからエンドツーエンドスタイルアーキテクチャに至るまで、新しいビュー合成問題に対する多くの新しいアプローチを提供しています。
それぞれのアプローチには具体的な長所があるが、適用性にも制限がある。
この研究はビューフュージョン(ViewFusion)を導入している。
ViewFusionは、シーンの任意の入力ビューに対して拡散遅延ステップを同時に適用し、各ビューで得られたノイズ勾配を(推定)画素重みマスクと組み合わせ、ターゲットビューの各領域において最も情報性の高い入力ビューのみを考慮に入れることを保証する。
提案手法は,(1)複数のシーンやオブジェクトクラスにまたがってトレーニング可能で一般化されていること,(2)列車とテスト時間の両方で可変数のポーズレスビューを適応的に取り込むこと,(3)非常に過小評価された条件(生成性に依存している)においても,可塑性ビューを生成すること,などによって,従来のアプローチのいくつかの制限を解消する。
制限にはシーンの3D埋め込みを発生させないことが含まれており、推論速度は比較的遅く、我々の方法は比較的小さなNeural 3D Mesh Rendererデータセットでのみテストされる。
コードはhttps://github.com/bronemos/view-fusion.comから入手できる。
関連論文リスト
- Synthesizing Consistent Novel Views via 3D Epipolar Attention without Re-Training [102.82553402539139]
大規模な拡散モデルでは、単一画像からの新規なビュー合成において顕著なゼロショット機能を示す。
これらのモデルは、新規および参照ビュー間の一貫性を維持する上で、しばしば課題に直面します。
入力ビューから重なり合う情報の探索と検索にエピポーラ幾何を用いることを提案する。
この情報はターゲットビューの生成に組み込まれ、トレーニングや微調整の必要がなくなる。
論文 参考訳(メタデータ) (2025-02-25T14:04:22Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - ViewFusion: Towards Multi-View Consistency via Interpolated Denoising [48.02829400913904]
既存のトレーニング済み拡散モデルにシームレスに統合可能なトレーニングフリーアルゴリズムであるViewFusionを導入する。
提案手法では,事前生成したビューを,次のビュー生成のコンテキストとして暗黙的に活用する自動回帰手法を採用する。
我々のフレームワークは、追加の微調整なしで複数ビュー条件設定で機能するように、単一ビュー条件付きモデルをうまく拡張しました。
論文 参考訳(メタデータ) (2024-02-29T04:21:38Z) - VaLID: Variable-Length Input Diffusion for Novel View Synthesis [36.57742242154048]
新たなビュー合成(NVS)は、3次元ビジョンの基本的な問題である。
それぞれのポーズ画像ペアを別々に処理し、それらを統一された視覚表現として融合させ、モデルに注入する。
可変長入力データを固定サイズ出力データにマッピングする多視点クロス前置モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-14T12:52:53Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models [16.326276673056334]
Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。
我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。
本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:57Z) - Multi-Plane Neural Radiance Fields for Novel View Synthesis [5.478764356647437]
新しいビュー合成は、新しいカメラの視点からシーンのフレームを描画する、長年にわたる問題である。
本研究では, 単面多面体ニューラル放射場の性能, 一般化, 効率について検討する。
合成結果の改善と視聴範囲の拡大のために,複数のビューを受理する新しい多面体NeRFアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-03T06:32:55Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。
レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文 参考訳(メタデータ) (2021-02-25T18:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。