論文の概要: AmodalGen3D: Generative Amodal 3D Object Reconstruction from Sparse Unposed Views
- arxiv url: http://arxiv.org/abs/2511.21945v1
- Date: Wed, 26 Nov 2025 22:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.312346
- Title: AmodalGen3D: Generative Amodal 3D Object Reconstruction from Sparse Unposed Views
- Title(参考訳): AmodalGen3D:スパースアンポーズビューからのアモーダル3Dオブジェクト生成
- Authors: Junwei Zhou, Yu-Wing Tai,
- Abstract要約: 3Dオブジェクトをいくつかの未完成で部分的に隠されたビューから再構築することは、現実のシナリオではよくあるが難しい問題である。
本稿では,アモーダル3次元オブジェクト再構成のための生成フレームワークであるAmodalGen3Dを紹介する。
AmodalGen3Dは、目に見える領域と隠れた領域を共同でモデリングすることで、スパースビューの制約に整合した3Dオブジェクトを忠実に再構築する。
- 参考スコア(独自算出の注目度): 37.60004902691764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing 3D objects from a few unposed and partially occluded views is a common yet challenging problem in real-world scenarios, where many object surfaces are never directly observed. Traditional multi-view or inpainting-based approaches struggle under such conditions, often yielding incomplete or geometrically inconsistent reconstructions. We introduce AmodalGen3D, a generative framework for amodal 3D object reconstruction that infers complete, occlusion-free geometry and appearance from arbitrary sparse inputs. The model integrates 2D amodal completion priors with multi-view stereo geometry conditioning, supported by a View-Wise Cross Attention mechanism for sparse-view feature fusion and a Stereo-Conditioned Cross Attention module for unobserved structure inference. By jointly modeling visible and hidden regions, AmodalGen3D faithfully reconstructs 3D objects that are consistent with sparse-view constraints while plausibly hallucinating unseen parts. Experiments on both synthetic and real-world datasets demonstrate that AmodalGen3D achieves superior fidelity and completeness under occlusion-heavy sparse-view settings, addressing a pressing need for object-level 3D scene reconstruction in robotics, AR/VR, and embodied AI applications.
- Abstract(参考訳): 多くの物体表面が直接観察されない現実のシナリオでは、3Dオブジェクトの再構成は一般的な問題であるが、難しい問題である。
伝統的なマルチビューやインパインティングに基づくアプローチはそのような条件下で苦労し、しばしば不完全あるいは幾何学的に矛盾した再構築をもたらす。
AmodalGen3Dは、任意のスパース入力から完全な、閉塞のない幾何学と外観を推論するアモーダル3Dオブジェクト再構成のための生成フレームワークである。
このモデルは2次元のアモーダル補完と多視点ステレオ幾何条件を統合し、スパースビュー特徴融合のためのビューワイズクロスアテンション機構と、観測されていない構造推論のためのステレオコンディションクロスアテンションモジュールによって支持される。
AmodalGen3Dは、目に見える領域と隠れた領域を共同でモデリングすることで、スパースビューの制約に整合した3Dオブジェクトを忠実に再構築する。
AmodalGen3Dは、ロボット工学、AR/VR、そして具体化されたAIアプリケーションにおいて、オブジェクトレベルの3Dシーン再構築の必要性に迫られている。
関連論文リスト
- ReconViaGen: Towards Accurate Multi-view 3D Object Reconstruction via Generation [28.308731720451053]
我々はReconViaGenを提案する。
我々のReconViaGenは、グローバルな構造と局所的な詳細の両方において、入力ビューと整合した完全かつ正確な3Dモデルを再構築できることを実証した。
論文 参考訳(メタデータ) (2025-10-27T13:15:06Z) - OracleGS: Grounding Generative Priors for Sparse-View Gaussian Splatting [78.70702961852119]
OracleGSは、Gaussian Splattingのスパースビューのために、生成的完全性と回帰的忠実性を調整している。
提案手法は,多視点幾何学的証拠に先立って強力な生成条件を定め,幻覚的アーティファクトをフィルタリングし,非拘束領域における可塑性完備を保存している。
論文 参考訳(メタデータ) (2025-09-27T11:19:32Z) - SCORP: Scene-Consistent Object Refinement via Proxy Generation and Tuning [46.441761732998536]
プロキシジェネレーションとチューニング(SCORP)によるシーン一貫性オブジェクトリファインメント(Scene-Consistent Object Refinement)について紹介する。
SCORP は、3D 生成に先立って細粒度なオブジェクトの形状と外観を復元する新しい3D拡張フレームワークである。
これは、新しいビュー合成と幾何完成タスクの両方において、最近の最先端のベースラインに対して一貫した利得を達成する。
論文 参考訳(メタデータ) (2025-06-30T13:26:21Z) - Amodal3R: Amodal 3D Reconstruction from Occluded 2D Images [66.77399370856462]
Amodal3Rは、部分的な観測から3Dオブジェクトを再構成するために設計された条件付き3D生成モデルである。
実際のシーンに隠蔽物が存在する場合でも、完全な3Dオブジェクトを復元することを学ぶ。
2次元アモーダルコンプリートと3次元再構成とを独立に行う既存の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-03-17T17:59:01Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - MOHO: Learning Single-view Hand-held Object Reconstruction with
Multi-view Occlusion-Aware Supervision [75.38953287579616]
ハンドヘルドオブジェクト再構成のためのハンドオブジェクトビデオから,多視点オクルージョン対応監視を利用する新しいフレームワークを提案する。
このような設定において、手による排他と対象の自己排他という2つの主要な課題に対処する。
HO3D と DexYCB のデータセットを用いた実験では、2D のMOHO が 3D の教師付き手法に対して大きなマージンで優れた結果を得ることが示された。
論文 参考訳(メタデータ) (2023-10-18T03:57:06Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。