Fugu-MT 論文翻訳(概要): Zero-Shot Multi-Object Shape Completion

論文の概要: Zero-Shot Multi-Object Shape Completion

arxiv url: http://arxiv.org/abs/2403.14628v1
Date: Thu, 21 Mar 2024 17:59:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 13:00:31.947543
Title: Zero-Shot Multi-Object Shape Completion
Title（参考訳）: ゼロショット多目的形状補完
Authors: Shun Iwase, Katherine Liu, Vitor Guizilini, Adrien Gaidon, Kris Kitani, Rares Ambrus, Sergey Zakharov,
Abstract要約: 1枚のRGB-D画像から複雑なシーンにおける複数の物体の完全な形状を復元する3次元形状補完法を提案する。提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
参考スコア（独自算出の注目度）: 59.325611678171974
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a 3D shape completion method that recovers the complete geometry of multiple objects in complex scenes from a single RGB-D image. Despite notable advancements in single object 3D shape completion, high-quality reconstructions in highly cluttered real-world multi-object scenes remains a challenge. To address this issue, we propose OctMAE, an architecture that leverages an Octree U-Net and a latent 3D MAE to achieve high-quality and near real-time multi-object shape completion through both local and global geometric reasoning. Because a na\"ive 3D MAE can be computationally intractable and memory intensive even in the latent space, we introduce a novel occlusion masking strategy and adopt 3D rotary embeddings, which significantly improves the runtime and shape completion quality. To generalize to a wide range of objects in diverse scenes, we create a large-scale photorealistic dataset, featuring a diverse set of 12K 3D object models from the Objaverse dataset which are rendered in multi-object scenes with physics-based positioning. Our method outperforms the current state-of-the-art on both synthetic and real-world datasets and demonstrates a strong zero-shot capability.
Abstract（参考訳）: 1枚のRGB-D画像から複雑なシーンにおける複数の物体の完全な形状を復元する3次元形状補完法を提案する。シングルオブジェクトの3D形状の完成が顕著に進んでいるにもかかわらず、高度に散らばった現実世界のマルチオブジェクトシーンにおける高品質な再構成は依然として課題である。そこで本研究では,Octree U-Netと潜伏3D MAEを併用して,局所的および大域的幾何学的推論による高品質かつほぼリアルタイムなマルチオブジェクト形状補完を実現するアーキテクチャであるOctMAEを提案する。潜伏空間においても,na\\ive 3D MAEは計算可能で,メモリ集約性が高いため,新しい隠蔽マスキング戦略を導入し,3次元回転埋め込みを導入し,実行時間と形状の整合性を大幅に向上させる。多様な場面で広範囲のオブジェクトに一般化するために、我々は、物理に基づく位置決めを伴う多目的シーンでレンダリングされるObjaverseデータセットから12Kの3Dオブジェクトモデルの多種多様なセットを特徴とする大規模なフォトリアリスティックデータセットを作成する。提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れ, 強力なゼロショット能力を示す。

関連論文リスト

Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。 UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文参考訳（メタデータ） (2025-12-16T12:49:35Z)
DreamGrasp: Zero-Shot 3D Multi-Object Reconstruction from Partial-View Images for Robotic Manipulation [12.812918371506209]
シーンの未観測部分を推論するフレームワークであるDreamGraspを紹介します。粗い3D再構成、対照的な学習によるインスタンスセグメンテーション、テキスト誘導型インスタンスワイドリファインメントを組み合わせることで、DreamGraspは以前の方法の制限を回避することができる。実験の結果,DreamGraspは正確なオブジェクト形状を復元するだけでなく,シーケンシャルなデクラッタリングや高い成功率のターゲット検索といった下流タスクもサポートしていることがわかった。
論文参考訳（メタデータ） (2025-07-08T03:12:49Z)
RaySt3R: Predicting Novel Depth Maps for Zero-Shot Object Completion [49.933001840775816]
RaySt3Rは、新しいビュー合成問題として、3D形状の完成をリキャストする。フィードフォワード変換器をトレーニングし、深度マップ、オブジェクトマスク、およびクエリ線に対する画素ごとの信頼スコアを予測する。 RaySt3Rは、これらの予測を複数のクエリビューに融合して、完全な3D形状を再構築する。
論文参考訳（メタデータ） (2025-06-05T17:43:23Z)
Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations [112.29763628638112]
Object-Xは多目的なマルチモーダル3D表現フレームワークである。リッチなオブジェクトの埋め込みをエンコードして、幾何学的および視覚的再構成に復号することができる。シーンアライメント、シングルイメージの3Dオブジェクト再構成、ローカライゼーションなど、さまざまなダウンストリームタスクをサポートする。
論文参考訳（メタデータ） (2025-06-05T09:14:42Z)
Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文参考訳（メタデータ） (2025-05-21T17:10:47Z)
REPARO: Compositional 3D Assets Generation with Differentiable 3D Layout Alignment [23.733856513456]
単一画像からの合成3Dアセット生成のための新しいアプローチであるREPAROを提案する。まず、シーンから個々のオブジェクトを抽出し、オフザシェルフ画像から3Dモデルを使用して、それらの3Dメッシュを再構築する。次に、異なるレンダリング技術によってこれらのメッシュのレイアウトを最適化し、コヒーレントなシーン構成を保証する。
論文参考訳（メタデータ） (2024-05-28T18:45:10Z)
OMEGAS: Object Mesh Extraction from Large Scenes Guided by Gaussian Segmentation [15.833273340802311]
大きな場面から特定の物体を正確に再構築することは困難である。現在のシーン再構築技術は、しばしばオブジェクトの詳細テクスチャが失われる。本稿では,ガウシアンがガイドした大規模シーンからオブジェクト抽出を行う OMEGAS というフレームワークを提案する。本研究では,大規模シーンから,定量的かつ定性的に,特定のターゲットを正確に再構築できることを実証する。
論文参考訳（メタデータ） (2024-04-24T14:29:26Z)
SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文参考訳（メタデータ） (2023-12-13T18:59:30Z)
Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文参考訳（メタデータ） (2023-04-19T16:39:51Z)
CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文参考訳（メタデータ） (2023-03-21T17:59:02Z)
OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。 190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文参考訳（メタデータ） (2023-01-18T18:14:18Z)
Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。 OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文参考訳（メタデータ） (2022-06-14T15:40:47Z)
CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文参考訳（メタデータ） (2020-04-27T17:53:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。