論文の概要: InstaScene: Towards Complete 3D Instance Decomposition and Reconstruction from Cluttered Scenes
- arxiv url: http://arxiv.org/abs/2507.08416v2
- Date: Mon, 21 Jul 2025 12:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 18:47:38.976899
- Title: InstaScene: Towards Complete 3D Instance Decomposition and Reconstruction from Cluttered Scenes
- Title(参考訳): InstaScene: クラッタシーンからの3Dインスタンスの完全分解と再構築に向けて
- Authors: Zesong Yang, Bangbang Yang, Wenqi Dong, Chenxuan Cao, Liyuan Cui, Yuewen Ma, Zhaopeng Cui, Hujun Bao,
- Abstract要約: 人間は、散らばった環境の中で自然に、そして精神的に完全に隠された物体を識別することができる。
InstaSceneは複雑なシーンの全体的3次元認識のための新しいパラダイムである。
- 参考スコア(独自算出の注目度): 44.63199609241569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can naturally identify and mentally complete occluded objects in cluttered environments. However, imparting similar cognitive ability to robotics remains challenging even with advanced reconstruction techniques, which models scenes as undifferentiated wholes and fails to recognize complete object from partial observations. In this paper, we propose InstaScene, a new paradigm towards holistic 3D perception of complex scenes with a primary goal: decomposing arbitrary instances while ensuring complete reconstruction. To achieve precise decomposition, we develop a novel spatial contrastive learning by tracing rasterization of each instance across views, significantly enhancing semantic supervision in cluttered scenes. To overcome incompleteness from limited observations, we introduce in-situ generation that harnesses valuable observations and geometric cues, effectively guiding 3D generative models to reconstruct complete instances that seamlessly align with the real world. Experiments on scene decomposition and object completion across complex real-world and synthetic scenes demonstrate that our method achieves superior decomposition accuracy while producing geometrically faithful and visually intact objects.
- Abstract(参考訳): 人間は、散らばった環境の中で自然に、そして精神的に完全に隠された物体を識別することができる。
しかし、ロボット工学に類似した認知能力を付与することは、シーンを未分化の全体としてモデル化し、部分的な観察から完全な物体を認識できない高度な再構成技術でさえも、依然として困難である。
本稿では,複雑なシーンの全体的3次元認識を主目的とする新たなパラダイムであるInstaSceneを提案する。
正確な分解を実現するために,各インスタンスのラスタライズを視点に追跡し,散らばったシーンにおける意味的監督を著しく向上させることにより,新しい空間的コントラスト学習を開発した。
限られた観測から不完全性を克服するため,実世界とシームレスに整合する完全インスタンスを再構築するための3次元生成モデルを効果的に導くために,貴重な観測と幾何学的手がかりを利用するその場生成を導入する。
複雑な実世界および合成シーンにおけるシーン分解とオブジェクト補完実験により,幾何学的に忠実で視覚的に無傷なオブジェクトを生成しながら,より優れた分解精度を実現することを示す。
関連論文リスト
- DreamGrasp: Zero-Shot 3D Multi-Object Reconstruction from Partial-View Images for Robotic Manipulation [12.812918371506209]
シーンの未観測部分を推論するフレームワークであるDreamGraspを紹介します。
粗い3D再構成、対照的な学習によるインスタンスセグメンテーション、テキスト誘導型インスタンスワイドリファインメントを組み合わせることで、DreamGraspは以前の方法の制限を回避することができる。
実験の結果,DreamGraspは正確なオブジェクト形状を復元するだけでなく,シーケンシャルなデクラッタリングや高い成功率のターゲット検索といった下流タスクもサポートしていることがわかった。
論文 参考訳(メタデータ) (2025-07-08T03:12:49Z) - Refine Any Object in Any Scene [39.109559659959]
Refine Any Object In Any ScenE (RAISE) は、細粒度オブジェクトの形状と外観を失くしたビューで復元する新しい3D拡張フレームワークである。
RAISEは、各プロキシを7-DOFのポーズで劣化したプロキシにアライメントすることで、幾何やテクスチャを徐々に洗練する。
挑戦的なベンチマーク実験により、RAISEは新しいビュー合成と幾何完成タスクの両方において最先端の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-06-30T13:26:21Z) - Single-image coherent reconstruction of objects and humans [16.836684199314938]
モノクル画像から物体や人間を再構成する既存の方法は、激しいメッシュ衝突と性能制限に悩まされている。
本稿では,1つの画像から対話対象と人物を相互に一貫した3次元再構成する手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T11:27:18Z) - Total-Decom: Decomposed 3D Scene Reconstruction with Minimal Interaction [51.3632308129838]
人間のインタラクションを最小限に抑えた3次元再構成法であるTotal-Decomを提案する。
提案手法は,Segment Anything Model (SAM) とハイブリッド型暗黙的なニューラルサーフェス表現をシームレスに統合し,メッシュベースの領域成長技術を用いて正確な3次元オブジェクト分解を行う。
提案手法をベンチマークデータセット上で広範囲に評価し,アニメーションやシーン編集などの下流アプリケーションの可能性を示す。
論文 参考訳(メタデータ) (2024-03-28T11:12:33Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - DynaVol: Unsupervised Learning for Dynamic Scenes through Object-Centric
Voxelization [67.85434518679382]
幾何学構造と物体中心学習を統一した3次元シーン生成モデルDynaVolを提案する。
鍵となるアイデアは、シーンの3D特性を捉えるために、オブジェクト中心のボキセル化を実行することである。
ボクセルの機能は標準空間の変形関数を通じて時間とともに進化し、グローバルな表現学習の基礎を形成する。
論文 参考訳(メタデータ) (2023-04-30T05:29:28Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - Unsupervised Discovery and Composition of Object Light Fields [57.198174741004095]
オブジェクト中心の合成シーン表現において、オブジェクトを光場として表現することを提案する。
オブジェクト中心の光場から大域的な光場を再構成できる新しい光場合成モジュールを提案する。
論文 参考訳(メタデータ) (2022-05-08T17:50:35Z) - Visiting the Invisible: Layer-by-Layer Completed Scene Decomposition [57.088328223220934]
既存のシーン理解システムは、主にシーンの可視部分を認識し、現実世界の物理的物体の無傷な外観を無視します。
本研究では,ある場面における物体と背景の可視部分と可視部分の両方に取り組む高レベルのシーン理解システムを提案する。
論文 参考訳(メタデータ) (2021-04-12T11:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。