論文の概要: Geometry-Aware Diffusion Models for Multiview Scene Inpainting
- arxiv url: http://arxiv.org/abs/2502.13335v1
- Date: Tue, 18 Feb 2025 23:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:53.256704
- Title: Geometry-Aware Diffusion Models for Multiview Scene Inpainting
- Title(参考訳): マルチビューシーン塗装のための幾何学的拡散モデル
- Authors: Ahmad Salimi, Tristan Aumentado-Armstrong, Marcus A. Brubaker, Konstantinos G. Derpanis,
- Abstract要約: 我々は,異なる視点から捉えた入力画像の一部がマスクアウトされる3Dシーンのインペイントに焦点を当てた。
最近の研究は、生成モデルと3次元放射場を組み合わせることで、視点を越えて情報を融合することでこの問題に対処している。
本稿では,参照画像から幾何的および外見的手がかりに基づいて一貫したイメージを描ける幾何認識条件生成モデルを提案する。
- 参考スコア(独自算出の注目度): 24.963896970130065
- License:
- Abstract: In this paper, we focus on 3D scene inpainting, where parts of an input image set, captured from different viewpoints, are masked out. The main challenge lies in generating plausible image completions that are geometrically consistent across views. Most recent work addresses this challenge by combining generative models with a 3D radiance field to fuse information across viewpoints. However, a major drawback of these methods is that they often produce blurry images due to the fusion of inconsistent cross-view images. To avoid blurry inpaintings, we eschew the use of an explicit or implicit radiance field altogether and instead fuse cross-view information in a learned space. In particular, we introduce a geometry-aware conditional generative model, capable of inpainting multi-view consistent images based on both geometric and appearance cues from reference images. A key advantage of our approach over existing methods is its unique ability to inpaint masked scenes with a limited number of views (i.e., few-view inpainting), whereas previous methods require relatively large image sets for their 3D model fitting step. Empirically, we evaluate and compare our scene-centric inpainting method on two datasets, SPIn-NeRF and NeRFiller, which contain images captured at narrow and wide baselines, respectively, and achieve state-of-the-art 3D inpainting performance on both. Additionally, we demonstrate the efficacy of our approach in the few-view setting compared to prior methods.
- Abstract(参考訳): 本稿では,異なる視点から捉えた入力画像の一部がマスクアウトされる3Dシーンのインペイントに焦点を当てる。
主な課題は、ビュー間で幾何学的に一貫した、もっともらしい画像補完を生成することである。
最近の研究は、生成モデルと3次元放射場を組み合わせることで、視点を越えて情報を融合することでこの問題に対処している。
しかし、これらの手法の大きな欠点は、不整合なクロスビュー画像の融合により、しばしばぼやけた画像を生成することである。
ぼやけた塗装を避けるため、暗黙的あるいは暗黙的な放射場の使用を全面的に検討し、代わりに学習空間におけるクロスビュー情報を融合する。
特に,参照画像から幾何的,外観的両方の手がかりに基づいて,多視点一貫したイメージを描ける幾何認識条件生成モデルを提案する。
既存の手法に対するアプローチの重要な利点は、マスクされたシーンを限られた数のビュー(例えば、少数ビューのインペインティング)でインペイントできるのに対して、従来の手法では3Dモデルに適合するステップに対して比較的大きなイメージセットを必要とする点である。
実験により,2つのデータセット(SPIn-NeRFとNeRFiller)におけるシーン中心の塗装法の評価と比較を行った。
さらに,本手法の有効性を,従来の手法と比較して,少数視点設定で示す。
関連論文リスト
- View-consistent Object Removal in Radiance Fields [14.195400035176815]
レーダー場(RF)は3次元シーン表現にとって重要な技術である。
現在の方法はフレーム単位の2Dイメージの描画に依存しており、ビュー間の一貫性の維持に失敗することが多い。
単一参照画像のみの塗布を必要とすることで、一貫性を著しく向上する新しいRF編集パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-04T17:57:23Z) - RefFusion: Reference Adapted Diffusion Models for 3D Scene Inpainting [63.567363455092234]
RefFusionは,画像インペイント拡散モデルのマルチスケールパーソナライズに基づく,新しい3Dインペイント手法である。
我々のフレームワークは、制御性を維持しながら、オブジェクト除去の最先端の成果を達成する。
論文 参考訳(メタデータ) (2024-04-16T17:50:02Z) - Continuous-Multiple Image Outpainting in One-Step via Positional Query
and A Diffusion-based Approach [104.2588068730834]
本稿では, 文献で未解決の2つの方向において, 画像出力の技術的フロンティアを推し進める。
トレーニング済みのバックボーンネットワークに依存しない手法を開発した。
提案手法(PQDiff)を公開ベンチマークで評価し,最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-28T13:00:38Z) - NeRFiller: Completing Scenes via Generative 3D Inpainting [113.18181179986172]
生成3Dインパインティングによる3Dキャプチャの欠落部分を解消する手法であるNeRFillerを提案する。
関連する作品とは対照的に、前景のオブジェクトを削除するのではなく、シーンの完成に重点を置いている。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - PERF: Panoramic Neural Radiance Field from a Single Panorama [109.31072618058043]
PERFはパノラマ性神経放射場を1つのパノラマから訓練する新しいビュー合成フレームワークである。
本研究では,360度2Dシーンを3Dシーンに持ち上げるために,新しい共同RGBDインペイント法とプログレッシブ・インペイント・アンド・エラスティング法を提案する。
PERFは,パノラマから3D,テキストから3D,3Dシーンのスタイリングなど,現実世界のアプリケーションに広く利用することができる。
論文 参考訳(メタデータ) (2023-10-25T17:59:01Z) - Reference-guided Controllable Inpainting of Neural Radiance Fields [26.296017756560467]
我々は、表示に一貫性があり、制御可能な領域に焦点をあてる。
単眼深度推定器を用いて, 塗装された視界を正確な3D位置へバックプロジェクターする。
非参照非排除領域に対しては,形状と外観の両方をガイドする画像インペインターに基づく手法を考案する。
論文 参考訳(メタデータ) (2023-04-19T14:11:21Z) - SPIn-NeRF: Multiview Segmentation and Perceptual Inpainting with Neural
Radiance Fields [26.296017756560467]
3Dでは、解は複数のビューで一貫し、幾何学的に有効でなければならない。
本稿では,これらの課題に対処する新しい3Dインペイント手法を提案する。
我々はまず,NeRF法と2次元セグメンテーション法と比較して,マルチビューセグメンテーションにおけるアプローチの優位性を実証する。
論文 参考訳(メタデータ) (2022-11-22T13:14:50Z) - Explicitly Controllable 3D-Aware Portrait Generation [42.30481422714532]
ポーズ,アイデンティティ,表現,照明に関する意味的パラメータに基づいて,一貫した肖像画を生成する3次元肖像画生成ネットワークを提案する。
提案手法は,自然光の鮮明な表現によるリアルな肖像画を,自由視点で見る場合,先行技術よりも優れる。
論文 参考訳(メタデータ) (2022-09-12T17:40:08Z) - ShaRF: Shape-conditioned Radiance Fields from a Single View [54.39347002226309]
本稿では,単一の画像のみのオブジェクトの神経シーン表現を推定する手法を提案する。
この手法の核心は,対象物の幾何学的足場の推定である。
合成画像と実画像の両方において,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2021-02-17T16:40:28Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。