論文の概要: MessyKitchens: Contact-rich object-level 3D scene reconstruction
- arxiv url: http://arxiv.org/abs/2603.16868v1
- Date: Tue, 17 Mar 2026 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.475354
- Title: MessyKitchens: Contact-rich object-level 3D scene reconstruction
- Title(参考訳): MessyKitchens: コンタクトリッチなオブジェクトレベル3Dシーンの再構築
- Authors: Junaid Ahmed Ansari, Ran Ding, Fabio Pizzati, Ivan Laptev,
- Abstract要約: 乱雑な環境を特徴とする現実世界のシーンを備えた新しいデータセットであるMessyKitchensを紹介した。
近年のSAM 3Dによる単一オブジェクト再構成手法をベースとして,複数オブジェクトデコーダ(MOD)を用いてオブジェクトレベルの共同再構成を実現している。
- 参考スコア(独自算出の注目度): 26.192713922771244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular 3D scene reconstruction has recently seen significant progress. Powered by the modern neural architectures and large-scale data, recent methods achieve high performance in depth estimation from a single image. Meanwhile, reconstructing and decomposing common scenes into individual 3D objects remains a hard challenge due to the large variety of objects, frequent occlusions and complex object relations. Notably, beyond shape and pose estimation of individual objects, applications in robotics and animation require physically-plausible scene reconstruction where objects obey physical principles of non-penetration and realistic contacts. In this work we advance object-level scene reconstruction along two directions. First, we introduceMessyKitchens, a new dataset with real-world scenes featuring cluttered environments and providing high-fidelity object-level ground truth in terms of 3D object shapes, poses and accurate object contacts. Second, we build on the recent SAM 3D approach for single-object reconstruction and extend it with Multi-Object Decoder (MOD) for joint object-level scene reconstruction. To validate our contributions, we demonstrate MessyKitchens to significantly improve previous datasets in registration accuracy and inter-object penetration. We also compare our multi-object reconstruction approach on three datasets and demonstrate consistent and significant improvements of MOD over the state of the art. Our new benchmark, code and pre-trained models will become publicly available on our project website: https://messykitchens.github.io/.
- Abstract(参考訳): モノクローナル3Dシーンの再構築は近年大きな進歩を遂げている。
現代のニューラルアーキテクチャと大規模データによって駆動される最近の手法は、単一画像からの深度推定において高い性能を達成する。
一方、一般的なシーンを個々の3Dオブジェクトに再構成・分解することは、多種多様なオブジェクト、頻繁なオクルージョン、複雑なオブジェクトの関係のために難しい課題である。
特に、個々の物体の形状やポーズを推定する以外に、ロボット工学やアニメーションの応用には、物体が非貫通的および現実的な接触の物理的原理に従うような物理的に証明可能なシーン再構築が必要である。
本研究は2つの方向に沿ってオブジェクトレベルのシーン再構築を進める。
まずMessyKitchensを紹介します。これは、乱雑な環境を特徴とし、3Dオブジェクトの形状、ポーズ、正確なオブジェクト接触の点で、高忠実なオブジェクトレベルの地上真実を提供する、現実世界のシーンを備えた新しいデータセットです。
第2に、単目的再構成のための最近のSAM 3Dアプローチを構築し、共同オブジェクトレベルのシーン再構成のためのMulti-Object Decoder (MOD)で拡張する。
私たちのコントリビューションを検証するために、MessyKitchensをデモして、登録精度とオブジェクト間の侵入において、以前のデータセットを大幅に改善する。
また、3つのデータセットに対する多目的再構成手法を比較し、最先端のMODの一貫性と大幅な改善を実証する。
新しいベンチマーク、コード、事前トレーニングされたモデルは、プロジェクトのWebサイトで公開されます。
関連論文リスト
- SCORP: Scene-Consistent Object Refinement via Proxy Generation and Tuning [46.441761732998536]
プロキシジェネレーションとチューニング(SCORP)によるシーン一貫性オブジェクトリファインメント(Scene-Consistent Object Refinement)について紹介する。
SCORP は、3D 生成に先立って細粒度なオブジェクトの形状と外観を復元する新しい3D拡張フレームワークである。
これは、新しいビュー合成と幾何完成タスクの両方において、最近の最先端のベースラインに対して一貫した利得を達成する。
論文 参考訳(メタデータ) (2025-06-30T13:26:21Z) - Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations [114.57192386025373]
Object-Xは多目的なマルチモーダル3D表現フレームワークである。
リッチなオブジェクトの埋め込みをエンコードして、幾何学的および視覚的再構成に復号することができる。
シーンアライメント、シングルイメージの3Dオブジェクト再構成、ローカライゼーションなど、さまざまなダウンストリームタスクをサポートする。
論文 参考訳(メタデータ) (2025-06-05T09:14:42Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。