論文の概要: DeOcc-1-to-3: 3D De-Occlusion from a Single Image via Self-Supervised Multi-View Diffusion
- arxiv url: http://arxiv.org/abs/2506.21544v1
- Date: Thu, 26 Jun 2025 17:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.24042
- Title: DeOcc-1-to-3: 3D De-Occlusion from a Single Image via Self-Supervised Multi-View Diffusion
- Title(参考訳): DeOcc-1-to-3:自己監督型マルチビュー拡散による単一画像からの3次元デオクルージョン
- Authors: Yansong Qu, Shaohui Dai, Xinyang Li, Yuze Wang, You Shen, Liujuan Cao, Rongrong Ji,
- Abstract要約: 単一の画像から3Dオブジェクトを再構築することは、長年の課題である。
最近の拡散型ビュー合成モデルでは、単一のRGB画像から一貫した新しいビューを生成することができる。
しかし、一般的に完全な視覚的な入力を仮定し、オブジェクトの一部が隠されているときに失敗する。
本稿では,オクルージョンを意識したマルチビュー生成のためのエンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 50.90541069907167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing 3D objects from a single image is a long-standing challenge, especially under real-world occlusions. While recent diffusion-based view synthesis models can generate consistent novel views from a single RGB image, they generally assume fully visible inputs and fail when parts of the object are occluded. This leads to inconsistent views and degraded 3D reconstruction quality. To overcome this limitation, we propose an end-to-end framework for occlusion-aware multi-view generation. Our method directly synthesizes six structurally consistent novel views from a single partially occluded image, enabling downstream 3D reconstruction without requiring prior inpainting or manual annotations. We construct a self-supervised training pipeline using the Pix2Gestalt dataset, leveraging occluded-unoccluded image pairs and pseudo-ground-truth views to teach the model structure-aware completion and view consistency. Without modifying the original architecture, we fully fine-tune the view synthesis model to jointly learn completion and multi-view generation. Additionally, we introduce the first benchmark for occlusion-aware reconstruction, encompassing diverse occlusion levels, object categories, and mask patterns. This benchmark provides a standardized protocol for evaluating future methods under partial occlusions. Our code is available at https://github.com/Quyans/DeOcc123.
- Abstract(参考訳): 一つの画像から3Dオブジェクトを再構築することは、特に現実世界の隠蔽下では、長年の課題である。
最近の拡散ベースビュー合成モデルは、単一のRGB画像から一貫した新しいビューを生成することができるが、一般的には、完全な視覚的な入力を仮定し、オブジェクトの一部が隠蔽されたときに失敗する。
これにより、不整合なビューと3D再構築の質が低下する。
この制限を克服するため,オクルージョン対応マルチビュー生成のためのエンドツーエンドフレームワークを提案する。
本手法は,1枚の部分閉塞画像から構造的に一貫した6つの新規なビューを直接合成し,事前の塗布や手動のアノテーションを必要とせず,下流の3D再構成を可能にする。
Pix2Gestaltデータセットを用いた自己教師型トレーニングパイプラインを構築し、隠蔽された画像対と擬似地上視を利用して、モデル構造を意識した補完と整合性を教える。
元のアーキテクチャを変更することなく、ビュー合成モデルを完全に微調整して、補完とマルチビュー生成を共同で学習する。
さらに,多様な咬合レベル,対象カテゴリ,マスクパターンを含む咬合認知再建のための最初のベンチマークを導入する。
このベンチマークは、部分閉塞下で将来のメソッドを評価するための標準化されたプロトコルを提供する。
私たちのコードはhttps://github.com/Quyans/DeOcc123.comから入手可能です。
関連論文リスト
- CHROME: Clothed Human Reconstruction with Occlusion-Resilience and Multiview-Consistency from a Single Image [41.09080719555336]
我々は,1つの隠蔽画像から複数視点の整合性を持つ3次元人体を再構成するための新しいパイプラインを提案する。
そして、3次元再構成モデルを用いて、隠蔽された入力と合成されたビューの両方に条件付き3次元ガウスの集合を予測する。
新規なビュー合成(最大3dbPSNR)と、挑戦的な条件下での幾何学的再構成の両方において、大幅な改善が達成されている。
論文 参考訳(メタデータ) (2025-03-19T19:56:18Z) - Gen3DSR: Generalizable 3D Scene Reconstruction via Divide and Conquer from a Single View [5.222115919729418]
シングルビュー3D再構成は現在、2つの主要な視点からアプローチされている。
分割・分散戦略に従うハイブリッド手法を提案する。
我々は,合成シーンと実世界のシーンの両方において,我々のアプローチの再構築性能を実証する。
論文 参考訳(メタデータ) (2024-04-04T12:58:46Z) - 2L3: Lifting Imperfect Generated 2D Images into Accurate 3D [16.66666619143761]
マルチビュー(MV)3次元再構成は,生成したMV画像を一貫した3次元オブジェクトに融合させる,有望なソリューションである。
しかし、生成された画像は、通常、一貫性のない照明、不整合幾何学、スパースビューに悩まされ、復元の質が低下する。
本稿では, 内在的分解誘導, 過渡的モノ先行誘導, および3つの問題に対処するための視認性向上を活用する新しい3次元再構成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T02:30:31Z) - Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D
Data [76.38261311948649]
Viewset Diffusionは拡散に基づくジェネレータで、3Dオブジェクトを出力する。
拡散モデルをトレーニングし、ビューセットを生成するが、ニューラルネットワークジェネレータを設計し、内部で対応する3Dモデルを再構成する。
モデルはフィードフォワード方式で効率的に再構成を行い、ビューセット当たり3ビューのレンダリング損失のみを用いてトレーニングされる。
論文 参考訳(メタデータ) (2023-06-13T16:18:51Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Self-Supervised Monocular 3D Face Reconstruction by Occlusion-Aware
Multi-view Geometry Consistency [40.56510679634943]
マルチビュー幾何整合性を利用した自己教師付きトレーニングアーキテクチャを提案する。
画素の整合性損失,奥行きの整合性損失,顔のランドマークに基づくエピポーラロスを含む,多視点整合性のための3つの新しい損失関数を設計する。
提案手法は精度が高く,特に多彩な表現,ポーズ,照明条件下では堅牢である。
論文 参考訳(メタデータ) (2020-07-24T12:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。