論文の概要: EmbodiedSAM: Online Segment Any 3D Thing in Real Time
- arxiv url: http://arxiv.org/abs/2408.11811v1
- Date: Wed, 21 Aug 2024 17:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 15:58:35.757843
- Title: EmbodiedSAM: Online Segment Any 3D Thing in Real Time
- Title(参考訳): EmbodiedSAM: リアルタイムで3Dプリントできるオンラインセグメンテーション
- Authors: Xiuwei Xu, Huangxing Chen, Linqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu,
- Abstract要約: 身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
- 参考スコア(独自算出の注目度): 61.2321497708998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied tasks require the agent to fully understand 3D scenes simultaneously with its exploration, so an online, real-time, fine-grained and highly-generalized 3D perception model is desperately needed. Since high-quality 3D data is limited, directly training such a model in 3D is almost infeasible. Meanwhile, vision foundation models (VFM) has revolutionized the field of 2D computer vision with superior performance, which makes the use of VFM to assist embodied 3D perception a promising direction. However, most existing VFM-assisted 3D perception methods are either offline or too slow that cannot be applied in practical embodied tasks. In this paper, we aim to leverage Segment Anything Model (SAM) for real-time 3D instance segmentation in an online setting. This is a challenging problem since future frames are not available in the input streaming RGB-D video, and an instance may be observed in several frames so object matching between frames is required. To address these challenges, we first propose a geometric-aware query lifting module to represent the 2D masks generated by SAM by 3D-aware queries, which is then iteratively refined by a dual-level query decoder. In this way, the 2D masks are transferred to fine-grained shapes on 3D point clouds. Benefit from the query representation for 3D masks, we can compute the similarity matrix between the 3D masks from different views by efficient matrix operation, which enables real-time inference. Experiments on ScanNet, ScanNet200, SceneNN and 3RScan show our method achieves leading performance even compared with offline methods. Our method also demonstrates great generalization ability in several zero-shot dataset transferring experiments and show great potential in open-vocabulary and data-efficient setting. Code and demo are available at https://xuxw98.github.io/ESAM/, with only one RTX 3090 GPU required for training and evaluation.
- Abstract(参考訳): Embodied taskは、エージェントが探索と同時に3Dシーンを完全に理解する必要があるため、オンライン、リアルタイム、きめ細かい3D認識モデルは必死に必要である。
高品質な3Dデータには制限があるため、そのようなモデルを3Dで直接訓練することはほぼ不可能である。
一方、視覚基礎モデル(VFM)は、2次元コンピュータビジョンの分野に革命をもたらし、優れた性能を持つ。
しかしながら、既存のVFM支援3次元認識手法のほとんどは、オフラインか遅すぎるかのいずれかであり、実用的な具体的タスクには適用できない。
本稿では,Segment Anything Model(SAM)をリアルタイムの3Dインスタンスセグメンテーションに活用することを目的としている。
入力ストリーミングRGB-Dビデオでは、将来のフレームが利用できないため、いくつかのフレームでインスタンスが観察され、フレーム間のオブジェクトマッチングが必要とされるため、これは難しい問題である。
これらの課題に対処するため、まずSAMが生成する2次元マスクを3D対応クエリで表現し、次に2次元クエリデコーダで反復的に洗練する幾何対応クエリリフトモジュールを提案する。
このようにして、2Dマスクは3Dポイントの雲の細かい形状に転送される。
3次元マスクの問合せ表現の利点を生かして,異なる視点から3次元マスク間の類似度行列を効率的な行列演算により計算し,リアルタイムな推論を可能にする。
ScanNet, ScanNet200, SceneNN, 3RScan による実験により, オフライン手法と比較しても本手法は先進的な性能を発揮することが示された。
提案手法は,いくつかのゼロショットデータセット転送実験において大きな一般化能力を示し,オープンボキャブラリとデータ効率の設定において大きな可能性を示す。
コードとデモはhttps://xuxw98.github.io/ESAM/で公開されている。
関連論文リスト
- Any3DIS: Class-Agnostic 3D Instance Segmentation by 2D Mask Tracking [6.599971425078935]
既存の3Dインスタンスセグメンテーションメソッドは、オーバーセグメンテーションの問題に頻繁に遭遇し、下流タスクを複雑にする冗長で不正確な3D提案につながります。
この課題は、フレーム全体に密集した2Dマスクを点雲に上げ、直接の監督なしに3D候補の提案を形成する、教師なしのマージンアプローチから生じる。
本研究では,2次元マスクセグメンテーション・トラッキング基盤モデル(SAM-2)を用いて,映像フレーム間の一貫したオブジェクトマスクを確保する3次元マスク追跡モジュールを提案する。
論文 参考訳(メタデータ) (2024-11-25T08:26:31Z) - MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model [34.245635412589806]
MeshFormerはスパースビューリコンストラクションモデルで、3Dネイティブ構造、入力ガイダンス、トレーニングインスペクションを明示的に活用する。
2次元拡散モデルと統合することで、高速な単一像から3次元およびテキストから3次元のタスクを可能にする。
論文 参考訳(メタデータ) (2024-08-19T17:55:17Z) - Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation [91.40798599544136]
高速かつ高精度なオープン語彙型3Dインスタンスセグメンテーション手法Open-YOLO 3Dを提案する。
オープンな3Dインスタンスセグメンテーションのために、マルチビューRGB画像からの2Dオブジェクト検出のみを効果的に活用する。
テキストプロンプトと3Dマスクとのマッチング性能は、2Dオブジェクト検出器でより高速に実現できることを実証的に見出した。
論文 参考訳(メタデータ) (2024-06-04T17:59:31Z) - Language-Image Models with 3D Understanding [59.499585515469974]
LV3Dと呼ばれる2Dおよび3Dのための大規模事前学習データセットを開発した。
次に,新しいMLLMであるCube-LLMを導入し,LV3Dで事前学習する。
純粋なデータスケーリングは、3D特有のアーキテクチャ設計やトレーニング目的を使わずに、強力な3D知覚能力を実現することを示す。
論文 参考訳(メタデータ) (2024-05-06T17:57:27Z) - Segment Anything in 3D with Radiance Fields [83.14130158502493]
本稿では,Segment Anything Model (SAM) を一般化して3次元オブジェクトをセグメント化する。
提案手法をSA3D, 略してSegment Anything in 3Dと呼ぶ。
実験では,SA3Dが様々なシーンに適応し,数秒で3Dセグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-04-24T17:57:15Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。