論文の概要: Any3DIS: Class-Agnostic 3D Instance Segmentation by 2D Mask Tracking
- arxiv url: http://arxiv.org/abs/2411.16183v1
- Date: Mon, 25 Nov 2024 08:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:30.050025
- Title: Any3DIS: Class-Agnostic 3D Instance Segmentation by 2D Mask Tracking
- Title(参考訳): Any3DIS: 2次元マスクトラッキングによるクラス非依存の3次元インスタンスセグメンテーション
- Authors: Phuc Nguyen, Minh Luu, Anh Tran, Cuong Pham, Khoi Nguyen,
- Abstract要約: 既存の3Dインスタンスセグメンテーションメソッドは、オーバーセグメンテーションの問題に頻繁に遭遇し、下流タスクを複雑にする冗長で不正確な3D提案につながります。
この課題は、フレーム全体に密集した2Dマスクを点雲に上げ、直接の監督なしに3D候補の提案を形成する、教師なしのマージンアプローチから生じる。
本研究では,2次元マスクセグメンテーション・トラッキング基盤モデル(SAM-2)を用いて,映像フレーム間の一貫したオブジェクトマスクを確保する3次元マスク追跡モジュールを提案する。
- 参考スコア(独自算出の注目度): 6.599971425078935
- License:
- Abstract: Existing 3D instance segmentation methods frequently encounter issues with over-segmentation, leading to redundant and inaccurate 3D proposals that complicate downstream tasks. This challenge arises from their unsupervised merging approach, where dense 2D instance masks are lifted across frames into point clouds to form 3D candidate proposals without direct supervision. These candidates are then hierarchically merged based on heuristic criteria, often resulting in numerous redundant segments that fail to combine into precise 3D proposals. To overcome these limitations, we propose a 3D-Aware 2D Mask Tracking module that uses robust 3D priors from a 2D mask segmentation and tracking foundation model (SAM-2) to ensure consistent object masks across video frames. Rather than merging all visible superpoints across views to create a 3D mask, our 3D Mask Optimization module leverages a dynamic programming algorithm to select an optimal set of views, refining the superpoints to produce a final 3D proposal for each object. Our approach achieves comprehensive object coverage within the scene while reducing unnecessary proposals, which could otherwise impair downstream applications. Evaluations on ScanNet200 and ScanNet++ confirm the effectiveness of our method, with improvements across Class-Agnostic, Open-Vocabulary, and Open-Ended 3D Instance Segmentation tasks.
- Abstract(参考訳): 既存の3Dインスタンスセグメンテーションメソッドは、オーバーセグメンテーションの問題に頻繁に遭遇し、下流タスクを複雑にする冗長で不正確な3D提案につながります。
この課題は、密集した2Dインスタンスマスクを点雲に上げ、直接の監督なしに3D候補の提案を形成する、教師なしのマージンアプローチから生じる。
これらの候補は、ヒューリスティックな基準に基づいて階層的にマージされ、しばしば多数の冗長なセグメントが正確な3D提案と組み合わせられなくなる。
これらの制約を克服するために,2次元マスクセグメンテーション・トラッキング基盤モデル (SAM-2) からロバストな3次元先行情報を用いて,ビデオフレーム間の一貫したオブジェクトマスクを確保する3D対応2Dマスクトラッキングモジュールを提案する。
私たちの3D Mask Optimizationモジュールは、3Dマスクを作成するためにビューにすべての可視的なスーパーポイントをマージする代わりに、動的プログラミングアルゴリズムを利用してビューの最適なセットを選択し、スーパーポイントを精細化し、各オブジェクトに対して最終的な3D提案を生成する。
我々のアプローチは、不要な提案を減らしながら、シーン内の包括的なオブジェクトカバレッジを実現します。
ScanNet200とScanNet++の評価は、クラス非依存、オープンボキャブラリ、オープンエンベッドされた3Dインスタンスセグメンテーションタスクの改善とともに、我々の方法の有効性を確認した。
関連論文リスト
- XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - MSTA3D: Multi-scale Twin-attention for 3D Instance Segmentation [7.400926717561454]
MSTA3Dはスーパーポイントベースの3Dインスタンスセグメンテーションのための新しいフレームワークである。
マルチスケールの特徴表現を利用し、それらを効果的にキャプチャするためのツインアテンション機構を導入している。
我々の手法は最先端の3Dインスタンスセグメンテーション手法を超越している。
論文 参考訳(メタデータ) (2024-11-04T04:14:39Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation [11.123421412837336]
オープン語彙の3Dインスタンスセグメンテーションは、事前に定義されたカテゴリなしで3Dインスタンスをセグメンテーションできる能力のために最先端である。
最近の研究はまず2Dモデルを通して2Dオープンボキャブラリマスクを生成し、2つの隣接するフレーム間で計算されたメトリクスに基づいてそれらを3Dインスタンスにマージする。
本稿では,多視点観測の利用率を高めるために,新しい基準であるビューコンセンサス率を提案する。
論文 参考訳(メタデータ) (2024-01-15T14:56:15Z) - Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance [49.14140194332482]
Open3DISは3Dシーン内でのOpen-Vocabulary Instanceの問題に対処するために設計された新しいソリューションである。
3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
論文 参考訳(メタデータ) (2023-12-17T10:07:03Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Segment Anything in 3D with Radiance Fields [83.14130158502493]
本稿では,Segment Anything Model (SAM) を一般化して3次元オブジェクトをセグメント化する。
提案手法をSA3D, 略してSegment Anything in 3Dと呼ぶ。
実験では,SA3Dが様々なシーンに適応し,数秒で3Dセグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-04-24T17:57:15Z) - Mask3D: Mask Transformer for 3D Semantic Instance Segmentation [89.41640045953378]
一般的なTransformerビルディングブロックを利用して、3Dポイントクラウドからインスタンスマスクを直接予測できることが示されています。
Transformerデコーダを使用して、インスタンスクエリは、複数のスケールでクラウド機能をポイントする反復的な参加者によって学習される。
Mask3Dは、新しい最先端ScanNetテスト(+6.2 mAP)、S3DIS 6-fold(+10.1 mAP)、LS3D(+11.2 mAP)、ScanNet200テスト(+12.4 mAP)を設定する。
論文 参考訳(メタデータ) (2022-10-06T17:55:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。