論文の概要: OneFormer3D: One Transformer for Unified Point Cloud Segmentation
- arxiv url: http://arxiv.org/abs/2311.14405v1
- Date: Fri, 24 Nov 2023 10:56:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 15:26:21.637457
- Title: OneFormer3D: One Transformer for Unified Point Cloud Segmentation
- Title(参考訳): OneFormer3D: 統一ポイントクラウドセグメンテーションのための1つのトランスフォーマー
- Authors: Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich
- Abstract要約: 本稿では,統合された,シンプルで効果的なセグメンテーションタスクのセマンティクス,例,およびパノプティックセグメンテーションタスクを共同で提案する。
OneFormer3Dという名前のモデルは、学習可能なカーネルのグループを使用して、インスタンスとセマンティックセグメンテーションを一貫して実行する。
また、ScanNet、ScanNet200、S3DISデータセットのセマンティック、例、およびパノプティックセグメンテーションにおいて、最先端の結果を示す。
- 参考スコア(独自算出の注目度): 5.530212768657545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic, instance, and panoptic segmentation of 3D point clouds have been
addressed using task-specific models of distinct design. Thereby, the
similarity of all segmentation tasks and the implicit relationship between them
have not been utilized effectively. This paper presents a unified, simple, and
effective model addressing all these tasks jointly. The model, named
OneFormer3D, performs instance and semantic segmentation consistently, using a
group of learnable kernels, where each kernel is responsible for generating a
mask for either an instance or a semantic category. These kernels are trained
with a transformer-based decoder with unified instance and semantic queries
passed as an input. Such a design enables training a model end-to-end in a
single run, so that it achieves top performance on all three segmentation tasks
simultaneously. Specifically, our OneFormer3D ranks 1st and sets a new
state-of-the-art (+2.1 mAP50) in the ScanNet test leaderboard. We also
demonstrate the state-of-the-art results in semantic, instance, and panoptic
segmentation of ScanNet (+21 PQ), ScanNet200 (+3.8 mAP50), and S3DIS (+0.8
mIoU) datasets.
- Abstract(参考訳): 例えば3次元点雲のセグメンテーションは、異なる設計のタスク固有モデルを用いて対処されている。
これにより、全てのセグメンテーションタスクの類似性とそれらの間の暗黙の関係は効果的に活用されていない。
本稿では,これらのタスクを協調的に扱う統一的でシンプルで効果的なモデルを提案する。
oneformer3dと名付けられたこのモデルは、学習可能なカーネルのグループを使用して、インスタンスとセマンティックセグメンテーションを一貫して実行する。
これらのカーネルは、インプットとして渡されるインスタンスとセマンティッククエリを統一したトランスフォーマーベースのデコーダでトレーニングされる。
このような設計は、モデルエンドツーエンドを1回の実行でトレーニングできるため、3つのセグメンテーションタスクすべてで最高のパフォーマンスを同時に達成できる。
具体的には、OneFormer3Dが第1位で、ScanNetテストリーダーボードに新しい最先端(+2.1 mAP50)を設定しています。
また、ScanNet(+21 PQ)、ScanNet200(+3.8 mAP50)、S3DIS(+0.8 mIoU)データセットのセマンティック、例、およびパノプティックセグメンテーションの最先端結果も示す。
関連論文リスト
- Instance Consistency Regularization for Semi-Supervised 3D Instance Segmentation [50.51125319374404]
ラベルのないデータから純粋なインスタンス知識を探索し活用するための,新たな自己学習ネットワークInsTeacher3Dを提案する。
複数の大規模データセットの実験結果から、InsTeacher3Dは最先端の半教師付きアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-06-24T16:35:58Z) - S3Net: Innovating Stereo Matching and Semantic Segmentation with a Single-Branch Semantic Stereo Network in Satellite Epipolar Imagery [23.965291952048872]
この研究は、セマンティックセグメンテーションとステレオマッチングを革新的に組み合わせたS3Net(Single-branch Semantic Stereo Network)というソリューションを導入している。
提案手法は,これらの2つのタスク間の本質的なリンクを識別し,活用することにより,意味情報のより正確な理解と相違性推定を実現する。
本モデルでは,セマンティックセグメンテーションにおけるmIoUを61.38から67.39に改善し,D1エラーと平均終点誤差(EPE)をそれぞれ10.051から9.579,1.439から1.403に削減する。
論文 参考訳(メタデータ) (2024-01-03T09:37:33Z) - Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene
Understanding [40.68012530554327]
室内3Dシーン理解のための3DバックボーンであるSSTを導入する。
我々は,線形メモリの複雑さを伴うスパースボクセルの自己アテンションを効率的に行える3Dスウィントランスを,バックボーンネットワークとして設計する。
我々のアプローチによって実現されたスケーラビリティ、汎用性、優れたパフォーマンスをさらに検証する大規模なアブレーション研究のシリーズである。
論文 参考訳(メタデータ) (2023-04-14T02:49:08Z) - You Only Need One Thing One Click: Self-Training for Weakly Supervised
3D Scene Understanding [107.06117227661204]
私たちはOne Thing One Click''を提案する。つまり、アノテーションはオブジェクトごとに1つのポイントをラベル付けするだけです。
グラフ伝搬モジュールによって促進されるトレーニングとラベル伝搬を反復的に行う。
我々のモデルは、ポイントクラスタリング戦略を備えた3Dインスタンスセグメンテーションと互換性がある。
論文 参考訳(メタデータ) (2023-03-26T13:57:00Z) - ISBNet: a 3D Point Cloud Instance Segmentation Network with
Instance-aware Sampling and Box-aware Dynamic Convolution [14.88505076974645]
ISBNetは、インスタンスをカーネルとして表現し、動的畳み込みを通じてインスタンスマスクをデコードする新しい方法である。
我々は,ScanNetV2 (55.9), S3DIS (60.8), S3LS3D (49.2) にAPの条件で新たな最先端結果を設定し,ScanNetV2のシーンあたり237msの高速推論時間を保持する。
論文 参考訳(メタデータ) (2023-03-01T06:06:28Z) - Superpoint Transformer for 3D Scene Instance Segmentation [7.07321040534471]
本稿では,SPFormer という名称の Superpoint Transformer に基づく,エンドツーエンドの3Dインスタンス分割手法を提案する。
ポイントクラウドからスーパーポイントに潜在的な機能をグループ化し、クエリベクタを通じてインスタンスを直接予測する。
これは、mAPの点でScanNetv2の隠れテストセットを4.3%上回り、高速な推論速度(フレーム当たり247ms)を同時に維持する。
論文 参考訳(メタデータ) (2022-11-28T20:52:53Z) - Unsupervised Representation Learning for 3D Point Cloud Data [66.92077180228634]
我々は、教師なしのポイントクラウド学習に対して、シンプルで効果的なアプローチを提案する。
特に、原点雲の優れたコントラストバージョンを生成する非常に有用な変換を同定する。
本研究では,3次元オブジェクト分類,形状部分分割,シーン分割の3つの下流タスクについて実験を行った。
論文 参考訳(メタデータ) (2021-10-13T10:52:45Z) - K-Net: Towards Unified Image Segmentation [78.32096542571257]
K-Netと名付けられたこのフレームワークは、学習可能なカーネルのグループによってインスタンスとセマンティックカテゴリの両方を一貫して分割する。
K-Netは双方向マッチングでエンドツーエンドでトレーニングすることができ、そのトレーニングと推論は自然にNMSフリーで、ボックスフリーである。
論文 参考訳(メタデータ) (2021-06-28T17:18:21Z) - One Thing One Click: A Self-Training Approach for Weakly Supervised 3D
Semantic Segmentation [78.36781565047656]
私たちは、アノテーションーがオブジェクトごとに1ポイントだけラベルを付ける必要があることを意味する「One Thing One Click」を提案します。
グラフ伝搬モジュールによって促進されるトレーニングとラベル伝搬を反復的に行う。
私たちの結果は、完全に監督されたものと同等です。
論文 参考訳(メタデータ) (2021-04-06T02:27:25Z) - SALA: Soft Assignment Local Aggregation for Parameter Efficient 3D
Semantic Segmentation [65.96170587706148]
3dポイントクラウドセマンティクスセグメンテーションのためのパラメータ効率の良いネットワークを生成するポイントローカルアグリゲーション関数の設計に着目する。
グリッド型アグリゲーション関数における学習可能な隣り合わせソフトアロケーションの利用について検討する。
論文 参考訳(メタデータ) (2020-12-29T20:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。