論文の概要: Zero-Shot Multi-Object Scene Completion
- arxiv url: http://arxiv.org/abs/2403.14628v2
- Date: Fri, 30 Aug 2024 05:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 20:11:53.424061
- Title: Zero-Shot Multi-Object Scene Completion
- Title(参考訳): ゼロショットマルチオブジェクトシーンコンプリート
- Authors: Shun Iwase, Katherine Liu, Vitor Guizilini, Adrien Gaidon, Kris Kitani, Rares Ambrus, Sergey Zakharov,
- Abstract要約: 1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
- 参考スコア(独自算出の注目度): 59.325611678171974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a 3D scene completion method that recovers the complete geometry of multiple unseen objects in complex scenes from a single RGB-D image. Despite notable advancements in single-object 3D shape completion, high-quality reconstructions in highly cluttered real-world multi-object scenes remains a challenge. To address this issue, we propose OctMAE, an architecture that leverages an Octree U-Net and a latent 3D MAE to achieve high-quality and near real-time multi-object scene completion through both local and global geometric reasoning. Because a naive 3D MAE can be computationally intractable and memory intensive even in the latent space, we introduce a novel occlusion masking strategy and adopt 3D rotary embeddings, which significantly improves the runtime and scene completion quality. To generalize to a wide range of objects in diverse scenes, we create a large-scale photorealistic dataset, featuring a diverse set of 12K 3D object models from the Objaverse dataset which are rendered in multi-object scenes with physics-based positioning. Our method outperforms the current state-of-the-art on both synthetic and real-world datasets and demonstrates a strong zero-shot capability.
- Abstract(参考訳): 1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
シングルオブジェクトの3D形状の完成が顕著な進歩を遂げたにもかかわらず、高度に散らばった現実世界のマルチオブジェクトシーンにおける高品質な再構成は依然として課題である。
そこで本研究では,Octree U-Netと潜伏3D MAEを利用して,局所的およびグローバルな幾何学的推論により,高品質でほぼリアルタイムなマルチオブジェクトシーン補完を実現するアーキテクチャであるOctMAEを提案する。
3D MAEは、潜伏空間でも計算可能で、メモリ集約性が高いため、新しい隠蔽マスキング戦略を導入し、3Dロータリーな埋め込みを導入し、実行時間とシーン完了の質を大幅に向上させる。
多様な場面で広範囲のオブジェクトに一般化するために、我々は、物理に基づく位置決めを伴う多目的シーンでレンダリングされるObjaverseデータセットから12Kの3Dオブジェクトモデルの多種多様なセットを特徴とする大規模なフォトリアリスティックデータセットを作成する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れ, 強力なゼロショット能力を示す。
関連論文リスト
- REPARO: Compositional 3D Assets Generation with Differentiable 3D Layout Alignment [23.733856513456]
単一画像からの合成3Dアセット生成のための新しいアプローチであるREPAROを提案する。
まず、シーンから個々のオブジェクトを抽出し、オフザシェルフ画像から3Dモデルを使用して、それらの3Dメッシュを再構築する。
次に、異なるレンダリング技術によってこれらのメッシュのレイアウトを最適化し、コヒーレントなシーン構成を保証する。
論文 参考訳(メタデータ) (2024-05-28T18:45:10Z) - OMEGAS: Object Mesh Extraction from Large Scenes Guided by Gaussian Segmentation [15.833273340802311]
大きな場面から特定の物体を正確に再構築することは困難である。
現在のシーン再構築技術は、しばしばオブジェクトの詳細テクスチャが失われる。
本稿では,ガウシアンがガイドした大規模シーンからオブジェクト抽出を行う OMEGAS というフレームワークを提案する。
本研究では,大規模シーンから,定量的かつ定性的に,特定のターゲットを正確に再構築できることを実証する。
論文 参考訳(メタデータ) (2024-04-24T14:29:26Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z) - OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文 参考訳(メタデータ) (2023-01-18T18:14:18Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。