論文の概要: Mask-Attention-Free Transformer for 3D Instance Segmentation
- arxiv url: http://arxiv.org/abs/2309.01692v1
- Date: Mon, 4 Sep 2023 16:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 18:03:39.766298
- Title: Mask-Attention-Free Transformer for 3D Instance Segmentation
- Title(参考訳): 3dインスタンスセグメンテーションのためのマスクアテンションフリートランスフォーマ
- Authors: Xin Lai, Yuhui Yuan, Ruihang Chu, Yukang Chen, Han Hu, Jiaya Jia
- Abstract要約: トランスフォーマーベースの手法は、マスクの注意が一般的に関与する3Dインスタンスセグメンテーションを支配している。
我々は、低リコール問題を克服し、位置対応を前提としたクロスアテンションを実現するために、一連の位置認識設計を開発する。
実験の結果,既存の作業よりも4倍早く収束し,ScanNetv2 3Dインスタンスセグメンテーションベンチマークに新たな技術状態を設定し,さまざまなデータセットで優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 68.29828726317723
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, transformer-based methods have dominated 3D instance segmentation,
where mask attention is commonly involved. Specifically, object queries are
guided by the initial instance masks in the first cross-attention, and then
iteratively refine themselves in a similar manner. However, we observe that the
mask-attention pipeline usually leads to slow convergence due to low-recall
initial instance masks. Therefore, we abandon the mask attention design and
resort to an auxiliary center regression task instead. Through center
regression, we effectively overcome the low-recall issue and perform
cross-attention by imposing positional prior. To reach this goal, we develop a
series of position-aware designs. First, we learn a spatial distribution of 3D
locations as the initial position queries. They spread over the 3D space
densely, and thus can easily capture the objects in a scene with a high recall.
Moreover, we present relative position encoding for the cross-attention and
iterative refinement for more accurate position queries. Experiments show that
our approach converges 4x faster than existing work, sets a new state of the
art on ScanNetv2 3D instance segmentation benchmark, and also demonstrates
superior performance across various datasets. Code and models are available at
https://github.com/dvlab-research/Mask-Attention-Free-Transformer.
- Abstract(参考訳): 近年,マスクの注意が関与する3Dインスタンスセグメンテーションがトランスフォーマーベースの手法で支配されている。
具体的には、オブジェクトクエリは、最初のクロスアテンションで初期インスタンスマスクによってガイドされ、それから同じ方法で反復的に洗練されます。
しかしながら、マスクアテンションパイプラインは通常、低リコールの初期インスタンスマスクによる収束が遅いことを観測する。
そこで我々はマスキングアテンション設計を放棄し、代わりに補助的なセンター回帰タスクを採用する。
センターレグレッションにより、低リコール問題を効果的に克服し、位置優先を課すことでクロスアテンションを行う。
この目標を達成するために,我々は位置認識設計のシリーズを開発した。
まず,3次元位置の空間分布を初期位置クエリとして学習する。
それらは3d空間に密に広がり、高いリコールでシーン内の物体を容易に捉えることができる。
さらに,クロスアテンションのための相対的位置エンコーディングと,より正確な位置クエリのための反復的改善を提案する。
実験の結果,既存の作業よりも4倍早く収束し,ScanNetv2 3Dインスタンスセグメンテーションベンチマークに新たな技術状態を設定し,さまざまなデータセットで優れたパフォーマンスを示す。
コードとモデルはhttps://github.com/dvlab-research/Mask-Attention-Free-Transformerで公開されている。
関連論文リスト
- MSTA3D: Multi-scale Twin-attention for 3D Instance Segmentation [7.400926717561454]
MSTA3Dはスーパーポイントベースの3Dインスタンスセグメンテーションのための新しいフレームワークである。
マルチスケールの特徴表現を利用し、それらを効果的にキャプチャするためのツインアテンション機構を導入している。
我々の手法は最先端の3Dインスタンスセグメンテーション手法を超越している。
論文 参考訳(メタデータ) (2024-11-04T04:14:39Z) - Efficient 3D Instance Mapping and Localization with Neural Fields [39.73128916618561]
本稿では,RGB画像の列から3次元インスタンスセグメンテーションの暗黙的なシーン表現を学習する問題に取り組む。
本稿では,新しい視点から3Dインスタンスセグメンテーションマスクを描画するニューラルラベルフィールドを効率的に学習する新しいフレームワークである3DIMLを紹介する。
論文 参考訳(メタデータ) (2024-03-28T19:25:25Z) - AutoInst: Automatic Instance-Based Segmentation of LiDAR 3D Scans [41.17467024268349]
3D環境を理解するには、きめ細かい風景を理解する必要がある。
教師なしの方法で3次元シーンのインスタンスセグメンテーションを予測することを提案する。
平均精度は13.3%,F1スコアは9.1%向上した。
論文 参考訳(メタデータ) (2024-03-24T22:53:16Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Position-Guided Point Cloud Panoptic Segmentation Transformer [118.17651196656178]
この作業は、LiDARベースのポイントクラウドセグメンテーションにこの魅力的なパラダイムを適用し、シンプルだが効果的なベースラインを得ることから始まります。
スパース点雲のインスタンスはシーン全体に対して比較的小さく、しばしば類似した形状を持つが、画像領域では珍しいセグメンテーションの外観が欠如している。
position-guided Point cloud Panoptic segmentation transFormer (P3Former) と名付けられたこの手法は、Semantic KITTI と nuScenes のベンチマークでそれぞれ3.4%、そして 1.2%の性能をそれぞれ上回っている。
論文 参考訳(メタデータ) (2023-03-23T17:59:02Z) - Mask3D: Mask Transformer for 3D Semantic Instance Segmentation [89.41640045953378]
一般的なTransformerビルディングブロックを利用して、3Dポイントクラウドからインスタンスマスクを直接予測できることが示されています。
Transformerデコーダを使用して、インスタンスクエリは、複数のスケールでクラウド機能をポイントする反復的な参加者によって学習される。
Mask3Dは、新しい最先端ScanNetテスト(+6.2 mAP)、S3DIS 6-fold(+10.1 mAP)、LS3D(+11.2 mAP)、ScanNet200テスト(+12.4 mAP)を設定する。
論文 参考訳(メタデータ) (2022-10-06T17:55:09Z) - Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。
不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。
S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-28T05:35:16Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - SDOD:Real-time Segmenting and Detecting 3D Object by Depth [5.97602869680438]
本稿では,3次元物体を奥行きで分割・検出するリアルタイムフレームワークを提案する。
オブジェクトの深さを深度カテゴリに分類し、インスタンス分割タスクをピクセルレベルの分類タスクに変換する。
挑戦的なKITTIデータセットの実験から、我々のアプローチはLklNetを約1.8倍の性能で、セグメンテーションと3D検出の速度を上回ります。
論文 参考訳(メタデータ) (2020-01-26T09:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。