論文の概要: Seeing Through Clutter: Structured 3D Scene Reconstruction via Iterative Object Removal
- arxiv url: http://arxiv.org/abs/2602.04053v1
- Date: Tue, 03 Feb 2026 22:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.296652
- Title: Seeing Through Clutter: Structured 3D Scene Reconstruction via Iterative Object Removal
- Title(参考訳): クリッタを通して見る: 反復的物体除去による構造的3次元シーン再構成
- Authors: Rio Aguina-Kang, Kevin James Blackburn-Matzen, Thibault Groueix, Vladimir Kim, Matheus Gadelha,
- Abstract要約: 本稿では,SeeingThroughClutterについて述べる。SeeingThroughClutterは,オブジェクトを個別にセグメント化,モデリングすることで,単一の画像から構造化された3次元表現を再構成する手法である。
複雑なシーンを単純なサブタスクのシーケンスに分解する反復的なオブジェクト除去と再構築パイプラインを導入することで、この問題に対処する。
本手法では,基礎モデルの継続的な進歩から直接,タスク固有のトレーニングやメリットを必要としない。
- 参考スコア(独自算出の注目度): 11.166147692815931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SeeingThroughClutter, a method for reconstructing structured 3D representations from single images by segmenting and modeling objects individually. Prior approaches rely on intermediate tasks such as semantic segmentation and depth estimation, which often underperform in complex scenes, particularly in the presence of occlusion and clutter. We address this by introducing an iterative object removal and reconstruction pipeline that decomposes complex scenes into a sequence of simpler subtasks. Using VLMs as orchestrators, foreground objects are removed one at a time via detection, segmentation, object removal, and 3D fitting. We show that removing objects allows for cleaner segmentations of subsequent objects, even in highly occluded scenes. Our method requires no task-specific training and benefits directly from ongoing advances in foundation models. We demonstrate stateof-the-art robustness on 3D-Front and ADE20K datasets. Project Page: https://rioak.github.io/seeingthroughclutter/
- Abstract(参考訳): 本稿では,SeeingThroughClutterについて述べる。SeeingThroughClutterは,オブジェクトのセグメント化とモデリングを個別に行うことで,単一画像から構造化された3次元表現を再構成する手法である。
従来のアプローチはセマンティックセグメンテーションや深さ推定のような中間的なタスクに依存しており、複雑なシーン、特にオクルージョンやクラッタの存在において、しばしば性能が劣る。
複雑なシーンを単純なサブタスクのシーケンスに分解する反復的なオブジェクト除去と再構築パイプラインを導入することで、この問題に対処する。
VLMをオーケストレータとして使用すると、前景オブジェクトは検出、セグメンテーション、オブジェクトの除去、そして3Dフィッティングによって一度に1つずつ削除される。
オブジェクトの削除は、高度に隠されたシーンであっても、その後のオブジェクトのよりクリーンなセグメンテーションを可能にすることを示す。
本手法では,基礎モデルの継続的な進歩から直接,タスク固有のトレーニングやメリットを必要としない。
3D-FrontとADE20Kデータセットに最先端のロバスト性を示す。
Project Page: https://rioak.github.io/seeingthroughclutter/
関連論文リスト
- Split&Splat: Zero-Shot Panoptic Segmentation via Explicit Instance Modeling and 3D Gaussian Splatting [18.506942200662575]
Split&Splatは3DGSを用いたパノプティカルシーン再構築のためのフレームワークである。
Split&Splatは、まずシーンを分割し、各オブジェクトを個別に再構築することで、この問題に取り組む。
この設計は下流タスクを自然にサポートし、Split&SplatはScanNetv2セグメンテーションベンチマークで最先端のパフォーマンスを達成できる。
論文 参考訳(メタデータ) (2026-02-01T20:10:37Z) - ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting [54.92763171355442]
ObjectGSは3Dシーンをセマンティックな理解と統合するオブジェクト認識フレームワークである。
我々はObjectGSがオープンボキャブラリやパン光学のセグメンテーションタスクにおいて最先端の手法より優れていることを示す実験を通して示す。
論文 参考訳(メタデータ) (2025-07-21T10:06:23Z) - GrabS: Generative Embodied Agent for 3D Object Segmentation without Scene Supervision [7.511342491529451]
複雑な点雲における3次元物体のセグメンテーションの難しさについて,人間の3次元シーンのラベルを監督のために必要とせずに検討した。
事前訓練された2D特徴の類似性や3Dポイントをオブジェクトとしてグループ化する動きなどの外部信号に頼ることで、既存の教師なし手法は車のような単純な物体を識別することに限定される。
論文 参考訳(メタデータ) (2025-04-16T04:13:53Z) - ObjectCarver: Semi-automatic segmentation, reconstruction and separation of 3D objects [44.38881095466177]
複数の画像から3次元表面を再構成する際、暗黙の神経磁場は顕著な進歩を遂げた。
これまでの研究は、署名された距離フィールドを個別に訓練するフレームワークを導入して、この問題に対処しようと試みてきた。
一つのビューで単に入力をクリックすることからオブジェクト分離の問題に取り組むために、ObjectCarverというメソッドを導入します。
論文 参考訳(メタデータ) (2024-07-26T22:13:20Z) - Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Iterative Superquadric Recomposition of 3D Objects from Multiple Views [77.53142165205283]
2次元ビューから直接3次元スーパークワッドリックを意味部品として用いたオブジェクトを再構成するフレームワークISCOを提案する。
我々のフレームワークは、再構成エラーが高い場合に、反復的に新しいスーパークワッドリックを追加します。
これは、野生の画像からでも、より正確な3D再構成を提供する。
論文 参考訳(メタデータ) (2023-09-05T10:21:37Z) - Unsupervised Object Localization: Observing the Background to Discover
Objects [4.870509580034194]
本研究では,異なるアプローチを採り,その代わりに背景を探すことを提案する。
このようにして、健全なオブジェクトは、オブジェクトが何であるべきかを強く仮定することなく、副産物として現れます。
自己教師型パッチベース表現から抽出した粗い背景マスクを備えた1ドルconv1times1$のシンプルなモデルであるFOUNDを提案する。
論文 参考訳(メタデータ) (2022-12-15T13:43:11Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。