論文の概要: MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing
- arxiv url: http://arxiv.org/abs/2408.08000v3
- Date: Tue, 19 Nov 2024 02:31:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:33:47.543744
- Title: MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing
- Title(参考訳): MVInpainter:2Dと3D編集を橋渡しするマルチビュー・コンシステント・インペインティングを学習する
- Authors: Chenjie Cao, Chaohui Yu, Fan Wang, Xiangyang Xue, Yanwei Fu,
- Abstract要約: 新規ビュー合成(NVS)と3D生成は、最近顕著に改善されている。
我々はMVInpainterを提案し、3D編集を多視点2Dインペインティングタスクとして再フォーマットする。
MVInpainterは、スクラッチから完全に新しいビューを生成するのではなく、参照ガイダンスで複数のビューイメージを部分的に描き込む。
- 参考スコア(独自算出の注目度): 90.30646271720919
- License:
- Abstract: Novel View Synthesis (NVS) and 3D generation have recently achieved prominent improvements. However, these works mainly focus on confined categories or synthetic 3D assets, which are discouraged from generalizing to challenging in-the-wild scenes and fail to be employed with 2D synthesis directly. Moreover, these methods heavily depended on camera poses, limiting their real-world applications. To overcome these issues, we propose MVInpainter, re-formulating the 3D editing as a multi-view 2D inpainting task. Specifically, MVInpainter partially inpaints multi-view images with the reference guidance rather than intractably generating an entirely novel view from scratch, which largely simplifies the difficulty of in-the-wild NVS and leverages unmasked clues instead of explicit pose conditions. To ensure cross-view consistency, MVInpainter is enhanced by video priors from motion components and appearance guidance from concatenated reference key&value attention. Furthermore, MVInpainter incorporates slot attention to aggregate high-level optical flow features from unmasked regions to control the camera movement with pose-free training and inference. Sufficient scene-level experiments on both object-centric and forward-facing datasets verify the effectiveness of MVInpainter, including diverse tasks, such as multi-view object removal, synthesis, insertion, and replacement. The project page is https://ewrfcas.github.io/MVInpainter/.
- Abstract(参考訳): 新規ビュー合成(NVS)と3D生成は、最近顕著に改善されている。
しかし、これらは主に、限定されたカテゴリや合成3Dアセットに焦点が当てられている。
さらに、これらの手法はカメラのポーズに大きく依存し、実際の応用を制限する。
これらの課題を克服するため,MVInpainterを提案し,マルチビュー2Dインペインティングタスクとして3D編集を再構成する。
具体的には、MVInpainterは、スクラッチから完全に新しいビューを生成するのではなく、参照ガイダンスで複数のビューイメージを部分的に描き込む。
クロスビューの整合性を確保するため、MVInpainterは、モーションコンポーネントからの動画先行と、連結された参照キー/バリューアテンションからの外観ガイダンスによって強化される。
さらに、MVInpainterはスロットアテンションを取り入れて、未成熟領域からの高レベル光フローの特徴を集約し、ポーズなしのトレーニングと推論でカメラの動きを制御する。
オブジェクト中心と前方の両方のデータセットに対する十分なシーンレベルの実験は、多視点オブジェクト除去、合成、挿入、置換といった様々なタスクを含むMVInpainterの有効性を検証する。
プロジェクトページはhttps://ewrfcas.github.io/MVInpainter/。
関連論文リスト
- MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D [63.9188712646076]
テクスチャリングは3Dアセット生産であり、視覚的魅力と視覚的魅力を高める。
近年の進歩にもかかわらず、メソッドは、主に局所的な不連続のために、しばしばサブパー結果をもたらす。
本稿では,高解像度かつシームレスなマルチビュー一貫性を実現するMVPaintという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-04T17:59:39Z) - Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - NeRFiller: Completing Scenes via Generative 3D Inpainting [113.18181179986172]
生成3Dインパインティングによる3Dキャプチャの欠落部分を解消する手法であるNeRFillerを提案する。
関連する作品とは対照的に、前景のオブジェクトを削除するのではなく、シーンの完成に重点を置いている。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - OR-NeRF: Object Removing from 3D Scenes Guided by Multiview Segmentation
with Neural Radiance Fields [53.32527220134249]
ニューラル・レージアンス・フィールド(NeRF)の出現により,3次元シーン編集への関心が高まっている。
現在の手法では、時間を要するオブジェクトのラベル付け、特定のターゲットを削除する能力の制限、削除後のレンダリング品質の妥協といった課題に直面している。
本稿では, OR-NeRF と呼ばれる新しいオブジェクト除去パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-17T18:18:05Z) - Clutter Detection and Removal in 3D Scenes with View-Consistent
Inpainting [10.087325516269265]
本稿では,3次元のシーンやインペイントの粗さをコヒーレントな形状とテクスチャで除去するシステムを提案する。
ノイズの多いラベルをグループ化し、仮想レンダリングを活用し、インスタンスレベルの領域依存的な損失を課します。
ScanNetとMatterportのデータセットを用いた実験により,本手法はクラッタセグメンテーションと3Dインパインティングのベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-07T17:57:20Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z) - SPIn-NeRF: Multiview Segmentation and Perceptual Inpainting with Neural
Radiance Fields [26.296017756560467]
3Dでは、解は複数のビューで一貫し、幾何学的に有効でなければならない。
本稿では,これらの課題に対処する新しい3Dインペイント手法を提案する。
我々はまず,NeRF法と2次元セグメンテーション法と比較して,マルチビューセグメンテーションにおけるアプローチの優位性を実証する。
論文 参考訳(メタデータ) (2022-11-22T13:14:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。