論文の概要: VEIGAR: View-consistent Explicit Inpainting and Geometry Alignment for 3D object Removal
- arxiv url: http://arxiv.org/abs/2506.15821v1
- Date: Fri, 13 Jun 2025 11:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.812623
- Title: VEIGAR: View-consistent Explicit Inpainting and Geometry Alignment for 3D object Removal
- Title(参考訳): VEIGAR:3次元物体除去のためのビューコンパインティングと幾何学的アライメント
- Authors: Pham Khai Nguyen Do, Bao Nguyen Tran, Nam Nguyen, Duc Dung Nguyen,
- Abstract要約: 新しいビュー合成(NVS)と3D生成は編集タスクを大幅に改善した。
生成プロセス全体を通して横断的な一貫性を維持するために、メソッドは通常、デュアルストラテジーフレームワークを使用してこの問題に対処する。
VEIGARは,初期再構成フェーズに依存することなく,既存の手法より優れた計算効率の高いフレームワークである。
- 参考スコア(独自算出の注目度): 2.8954284913103367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Novel View Synthesis (NVS) and 3D generation have significantly improved editing tasks, with a primary emphasis on maintaining cross-view consistency throughout the generative process. Contemporary methods typically address this challenge using a dual-strategy framework: performing consistent 2D inpainting across all views guided by embedded priors either explicitly in pixel space or implicitly in latent space; and conducting 3D reconstruction with additional consistency guidance. Previous strategies, in particular, often require an initial 3D reconstruction phase to establish geometric structure, introducing considerable computational overhead. Even with the added cost, the resulting reconstruction quality often remains suboptimal. In this paper, we present VEIGAR, a computationally efficient framework that outperforms existing methods without relying on an initial reconstruction phase. VEIGAR leverages a lightweight foundation model to reliably align priors explicitly in the pixel space. In addition, we introduce a novel supervision strategy based on scale-invariant depth loss, which removes the need for traditional scale-and-shift operations in monocular depth regularization. Through extensive experimentation, VEIGAR establishes a new state-of-the-art benchmark in reconstruction quality and cross-view consistency, while achieving a threefold reduction in training time compared to the fastest existing method, highlighting its superior balance of efficiency and effectiveness.
- Abstract(参考訳): 新規ビュー合成(NVS)と3D生成の最近の進歩は、編集作業を大幅に改善し、生成プロセス全体を通して、クロスビューの一貫性を維持することに重点を置いている。
現代の手法では、通常はデュアルストラテジーフレームワークを使用してこの課題に対処する: 埋め込みプレジデントによってガイドされるすべてのビューに一貫した2Dインペインティングを実行し、明示的にピクセル空間または暗黙的にラテント空間に配置し、追加の一貫性ガイダンスで3D再構成を行う。
それまでの戦略、特に幾何学的構造の確立には初期3次元再構成フェーズが必要であり、計算上のオーバーヘッドがかなり大きい。
追加費用にもかかわらず、結果として生じる再建の質は、しばしば最適以下である。
本稿では,初期再構成フェーズに頼らずに既存の手法より優れた計算効率の高いフレームワークVEIGARを提案する。
VEIGARは軽量な基礎モデルを利用して、ピクセル空間の事前を確実に整列させる。
さらに,単眼深度正規化における従来型のスケール・アンド・シフト操作の必要性を排除し,スケール不変深度損失に基づく新たな監視戦略を導入する。
VEIGARは、大規模な実験を通じて、再構築品質とクロスビュー整合性において新しい最先端のベンチマークを確立しつつ、トレーニング時間の3倍の削減を実現し、その効率性と効率性の優れたバランスを強調している。
関連論文リスト
- Mono3R: Exploiting Monocular Cues for Geometric 3D Reconstruction [11.220655907305515]
多視点再構成フレームワークにモノクラー幾何の先行を組み込んだモノクラー誘導リファインメントモジュールを導入する。
本手法は,マルチビューカメラのポーズ推定と点雲の精度の両面で大幅に向上する。
論文 参考訳(メタデータ) (2025-04-18T02:33:12Z) - FreeSplat++: Generalizable 3D Gaussian Splatting for Efficient Indoor Scene Reconstruction [50.534213038479926]
FreeSplat++は大規模な屋内全シーン再構築の代替手法である。
深度調整による微調整により,再現精度が大幅に向上し,トレーニング時間も大幅に短縮された。
論文 参考訳(メタデータ) (2025-03-29T06:22:08Z) - Evolving High-Quality Rendering and Reconstruction in a Unified Framework with Contribution-Adaptive Regularization [27.509109317973817]
3D Gaussian Splatting (3DGS)は、高品質なレンダリングと高速な推論速度で注目されている。
従来の手法は主に幾何学的正則化に焦点を当てており、プリミティブベースのフレームワークやデュアルモデルフレームワークを含む一般的なアプローチがある。
本稿では,高画質表面再構成を実現するために,適応正規化を利用した統一モデルであるCarGSを提案する。
論文 参考訳(メタデータ) (2025-03-02T12:51:38Z) - T-3DGS: Removing Transient Objects for 3D Scene Reconstruction [83.05271859398779]
映像シーケンスにおける過渡的オブジェクトは、3Dシーン再構成の品質を著しく低下させる可能性がある。
我々は,ガウススプラッティングを用いた3次元再構成において,過渡的障害を頑健に除去する新しいフレームワークT-3DGSを提案する。
論文 参考訳(メタデータ) (2024-11-29T07:45:24Z) - MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement [23.707586182294932]
単一画像再構成における既存の作業は、訓練データ不足や総合的な多視点知識の欠如による3次元不整合により、弱い一般化性に悩まされている。
単一の参照画像から高品質な新規ビュー画像を生成するために設計された,人間固有の多視点拡散モデルであるMagicManを紹介する。
論文 参考訳(メタデータ) (2024-08-26T12:10:52Z) - SMORE: Simultaneous Map and Object REconstruction [66.66729715211642]
本稿では,LiDARから大規模都市景観を動的に再現する手法を提案する。
我々は、世界が厳格に動く物体と背景に分解される動的なシーンの構成モデルを総合的に捉え、最適化する。
論文 参考訳(メタデータ) (2024-06-19T23:53:31Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Improving Neural Indoor Surface Reconstruction with Mask-Guided Adaptive
Consistency Constraints [0.6749750044497732]
本稿では、ビュー依存色とビュー非依存色を分離する2段階のトレーニングプロセスを提案し、さらに2つの新しい一貫性制約を活用して、余分な事前処理を必要とせず、詳細な再構成性能を向上させる。
合成および実世界のデータセットの実験は、事前推定誤差から干渉を減らす能力を示している。
論文 参考訳(メタデータ) (2023-09-18T13:05:23Z) - Black-Box Test-Time Shape REFINEment for Single View 3D Reconstruction [57.805334118057665]
文献中の任意のブラックボックス方式のパイプラインに容易に組み込むことができる後処理メッシュ改善ステップであるREFINEを提案する。
テスト時には、REFINEはメッシュ毎のネットワークインスタンスを最適化し、メッシュと所定のオブジェクトビュー間の一貫性を促進する。
論文 参考訳(メタデータ) (2021-08-23T03:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。