論文の概要: Mask3D for 3D Semantic Instance Segmentation
- arxiv url: http://arxiv.org/abs/2210.03105v1
- Date: Thu, 6 Oct 2022 17:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 17:03:58.582017
- Title: Mask3D for 3D Semantic Instance Segmentation
- Title(参考訳): mask3dによる3次元意味インスタンスセグメンテーション
- Authors: Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu
Tang, Bastian Leibe
- Abstract要約: 一般的なTransformerビルディングブロックを利用して、3Dポイントクラウドからインスタンスマスクを直接予測できることが示されています。
Transformerデコーダを使用して、インスタンスクエリは、複数のスケールでクラウド機能をポイントする反復的な参加者によって学習される。
Mask3Dは、新しい最先端ScanNetテスト(+6.2 mAP)、S3DIS 6-fold(+10.1 mAP)、LS3D(+11.2 mAP)、ScanNet200テスト(+12.4 mAP)を設定する。
- 参考スコア(独自算出の注目度): 89.41640045953378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern 3D semantic instance segmentation approaches predominantly rely on
specialized voting mechanisms followed by carefully designed geometric
clustering techniques. Building on the successes of recent Transformer-based
methods for object detection and image segmentation, we propose the first
Transformer-based approach for 3D semantic instance segmentation. We show that
we can leverage generic Transformer building blocks to directly predict
instance masks from 3D point clouds. In our model called Mask3D each object
instance is represented as an instance query. Using Transformer decoders, the
instance queries are learned by iteratively attending to point cloud features
at multiple scales. Combined with point features, the instance queries directly
yield all instance masks in parallel. Mask3D has several advantages over
current state-of-the-art approaches, since it neither relies on (1) voting
schemes which require hand-selected geometric properties (such as centers) nor
(2) geometric grouping mechanisms requiring manually-tuned hyper-parameters
(e.g. radii) and (3) enables a loss that directly optimizes instance masks.
Mask3D sets a new state-of-the-art on ScanNet test (+6.2 mAP), S3DIS 6-fold
(+10.1 mAP), STPLS3D (+11.2 mAP) and ScanNet200 test (+12.4 mAP).
- Abstract(参考訳): 現代の3dセマンティクスインスタンスセグメンテーションのアプローチは、主に特殊な投票機構と、注意深く設計された幾何学的クラスタリング技術に依存している。
近年のオブジェクト検出と画像分割におけるトランスフォーマティブ手法の成功を踏まえ,3次元意味インスタンスセグメンテーションのための最初のトランスフォーマティブ方式を提案する。
汎用的なトランスフォーマービルディングブロックを利用して,3dポイントクラウドからインスタンスマスクを直接予測できることを示す。
Mask3Dと呼ばれるモデルでは、各オブジェクトインスタンスはインスタンスクエリとして表現されます。
Transformerデコーダを使用して、インスタンスクエリは、複数のスケールでクラウド機能をポイントする反復的な参加者によって学習される。
ポイント機能と組み合わせて、インスタンスクエリは、すべてのインスタンスマスクを並列に生成する。
mask3dは,(1)手動で選択した幾何学的特性(中心など)を必要とする投票スキーム,(2)手動で調整されたハイパーパラメータ(radiiなど)を必要とする幾何学的グループ化機構,(3)インスタンスマスクを直接最適化する損失など,最先端のアプローチよりもいくつかのメリットがある。
Mask3Dは新しい最先端ScanNetテスト(+6.2 mAP)、S3DIS 6-fold(+10.1 mAP)、STPLS3D(+11.2 mAP)、ScanNet200テスト(+12.4 mAP)をセットする。
関連論文リスト
- Efficient 3D Instance Mapping and Localization with Neural Fields [39.73128916618561]
本稿では,RGB画像の列から3次元インスタンスセグメンテーションの暗黙的なシーン表現を学習する問題に取り組む。
本稿では,新しい視点から3Dインスタンスセグメンテーションマスクを描画するニューラルラベルフィールドを効率的に学習する新しいフレームワークである3DIMLを紹介する。
論文 参考訳(メタデータ) (2024-03-28T19:25:25Z) - MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation [11.123421412837336]
オープン語彙の3Dインスタンスセグメンテーションは、事前に定義されたカテゴリなしで3Dインスタンスをセグメンテーションできる能力のために最先端である。
最近の研究はまず2Dモデルを通して2Dオープンボキャブラリマスクを生成し、2つの隣接するフレーム間で計算されたメトリクスに基づいてそれらを3Dインスタンスにマージする。
本稿では,多視点観測の利用率を高めるために,新しい基準であるビューコンセンサス率を提案する。
論文 参考訳(メタデータ) (2024-01-15T14:56:15Z) - Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance [49.14140194332482]
Open3DISは3Dシーン内でのOpen-Vocabulary Instanceの問題に対処するために設計された新しいソリューションである。
3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
論文 参考訳(メタデータ) (2023-12-17T10:07:03Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Mask-Attention-Free Transformer for 3D Instance Segmentation [68.29828726317723]
トランスフォーマーベースの手法は、マスクの注意が一般的に関与する3Dインスタンスセグメンテーションを支配している。
我々は、低リコール問題を克服し、位置対応を前提としたクロスアテンションを実現するために、一連の位置認識設計を開発する。
実験の結果,既存の作業よりも4倍早く収束し,ScanNetv2 3Dインスタンスセグメンテーションベンチマークに新たな技術状態を設定し,さまざまなデータセットで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-09-04T16:09:28Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z) - Superpoint Transformer for 3D Scene Instance Segmentation [7.07321040534471]
本稿では,SPFormer という名称の Superpoint Transformer に基づく,エンドツーエンドの3Dインスタンス分割手法を提案する。
ポイントクラウドからスーパーポイントに潜在的な機能をグループ化し、クエリベクタを通じてインスタンスを直接予測する。
これは、mAPの点でScanNetv2の隠れテストセットを4.3%上回り、高速な推論速度(フレーム当たり247ms)を同時に維持する。
論文 参考訳(メタデータ) (2022-11-28T20:52:53Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z) - SDOD:Real-time Segmenting and Detecting 3D Object by Depth [5.97602869680438]
本稿では,3次元物体を奥行きで分割・検出するリアルタイムフレームワークを提案する。
オブジェクトの深さを深度カテゴリに分類し、インスタンス分割タスクをピクセルレベルの分類タスクに変換する。
挑戦的なKITTIデータセットの実験から、我々のアプローチはLklNetを約1.8倍の性能で、セグメンテーションと3D検出の速度を上回ります。
論文 参考訳(メタデータ) (2020-01-26T09:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。