論文の概要: Amodal3R: Amodal 3D Reconstruction from Occluded 2D Images
- arxiv url: http://arxiv.org/abs/2503.13439v1
- Date: Mon, 17 Mar 2025 17:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:29:57.787663
- Title: Amodal3R: Amodal 3D Reconstruction from Occluded 2D Images
- Title(参考訳): Amodal3R: 付加した2次元画像からのアモーダル3D再構成
- Authors: Tianhao Wu, Chuanxia Zheng, Frank Guan, Andrea Vedaldi, Tat-Jen Cham,
- Abstract要約: Amodal3Rは、部分的な観測から3Dオブジェクトを再構成するために設計された条件付き3D生成モデルである。
実際のシーンに隠蔽物が存在する場合でも、完全な3Dオブジェクトを復元することを学ぶ。
2次元アモーダルコンプリートと3次元再構成とを独立に行う既存の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 66.77399370856462
- License:
- Abstract: Most image-based 3D object reconstructors assume that objects are fully visible, ignoring occlusions that commonly occur in real-world scenarios. In this paper, we introduce Amodal3R, a conditional 3D generative model designed to reconstruct 3D objects from partial observations. We start from a "foundation" 3D generative model and extend it to recover plausible 3D geometry and appearance from occluded objects. We introduce a mask-weighted multi-head cross-attention mechanism followed by an occlusion-aware attention layer that explicitly leverages occlusion priors to guide the reconstruction process. We demonstrate that, by training solely on synthetic data, Amodal3R learns to recover full 3D objects even in the presence of occlusions in real scenes. It substantially outperforms existing methods that independently perform 2D amodal completion followed by 3D reconstruction, thereby establishing a new benchmark for occlusion-aware 3D reconstruction.
- Abstract(参考訳): ほとんどの画像ベースの3Dオブジェクト再構成器は、オブジェクトが完全に可視であり、現実世界のシナリオで一般的に発生するオクルージョンを無視していると仮定する。
本稿では,部分的な観察から3Dオブジェクトを再構成する条件付き3D生成モデルであるAmodal3Rを紹介する。
まず「境界」3次元生成モデルから始まり、それを拡張して、隠蔽物体から可視な3次元形状と外観を復元する。
マスク重み付き多頭部交叉保持機構を導入し,オクルージョン・アウェア・アテンション・レイヤを導入し,オクルージョン前処理を明示的に活用して再建プロセスを導出する。
Amodal3Rは、合成データのみを訓練することによって、実際のシーンに閉塞がある場合でも、完全な3Dオブジェクトを復元することを学ぶ。
2次元アモーダルコンプリートと3次元再構成とを独立に行う既存の手法を著しく上回り、オクルージョンを意識した3次元再構成のための新しいベンチマークを確立する。
関連論文リスト
- Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - In-Hand 3D Object Reconstruction from a Monocular RGB Video [17.31419675163019]
我々の研究は、静止RGBカメラの前で手で保持・回転する3Dオブジェクトを再構築することを目的としている。
暗黙の神経表現を用いて、多視点画像からジェネリックハンドヘルドオブジェクトの形状を復元する従来の手法は、オブジェクトの可視部分において魅力的な結果を得た。
論文 参考訳(メタデータ) (2023-12-27T06:19:25Z) - Scan2LoD3: Reconstructing semantic 3D building models at LoD3 using ray
casting and Bayesian networks [40.7734793392562]
詳細レベル(LoD)3でセマンティックな3Dビルディングモデルを再構築することは、長年にわたる課題である。
セマンティックなLoD3構築モデルを正確に再構築する新しい手法であるScan2LoD3を提案する。
提案手法は,LoD3における確率駆動型セマンティック3次元再構成の開発を促進できると考えている。
論文 参考訳(メタデータ) (2023-05-10T17:01:18Z) - 3D Reconstruction of Objects in Hands without Real World 3D Supervision [12.70221786947807]
ハンドヘルドオブジェクトを再構築するためのモデル学習をスケールアップするために,3Dインスペクションを活用するモジュールを提案する。
具体的には、ビデオから多視点2Dマスクの監視を抽出し、形状収集から3次元形状の前兆を抽出する。
我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
論文 参考訳(メタデータ) (2023-05-04T17:56:48Z) - Unsupervised Style-based Explicit 3D Face Reconstruction from Single
Image [10.1205208477163]
本研究では,Unsupervised 2D to Explicit 3D Style Transferを解くための一般的な逆学習フレームワークを提案する。
具体的には、Wuらによる教師なし明示的な3D再構成ネットワークと、StarGAN-v2というジェネレーティブ・アドバイザリ・ネットワーク(GAN)の2つのアーキテクチャを統合する。
提案手法は,DepthNetを3次元再構成で,Pix2NeRFを条件付き転送で,よく確立されたソリューションよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T21:25:06Z) - Farm3D: Learning Articulated 3D Animals by Distilling 2D Diffusion [67.71624118802411]
本稿では,カテゴリー固有の3D再構成器の学習方法であるFarm3Dについて述べる。
本稿では,Stable Diffusion などの画像生成装置を用いて,合成学習データを生成するフレームワークを提案する。
我々のネットワークは、単分子再構成や合成などの分析に利用でき、ビデオゲームのようなリアルタイムアプリケーションのための音響資産を生成することができる。
論文 参考訳(メタデータ) (2023-04-20T17:59:34Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - Monocular 3D Object Reconstruction with GAN Inversion [122.96094885939146]
MeshInversionはテクスチャ化された3Dメッシュの再構築を改善するための新しいフレームワークである。
これは、3Dテクスチャメッシュ合成のために事前訓練された3D GANの生成前を利用する。
本フレームワークは,観察部と観察部の両方で一貫した形状とテクスチャを有する忠実な3次元再構成を実現する。
論文 参考訳(メタデータ) (2022-07-20T17:47:22Z) - 3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。
従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。
本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:03:31Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。