論文の概要: Top-Down Beats Bottom-Up in 3D Instance Segmentation
- arxiv url: http://arxiv.org/abs/2302.02871v4
- Date: Mon, 11 Sep 2023 13:34:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 17:40:44.475096
- Title: Top-Down Beats Bottom-Up in 3D Instance Segmentation
- Title(参考訳): トップダウンのボトムアップ、3Dインスタンスのセグメンテーションで
- Authors: Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich
- Abstract要約: TD3Dはクラスタフリーで、完全に畳み込み、エンドツーエンドでトレーニングされた完全にデータ駆動のアプローチである。
これは3Dドメインにおけるボトムアップアプローチよりも優れた、最初のトップダウンメソッドである。
提案手法は,従来のグループ化手法よりもはるかに高速である。
- 参考スコア(独自算出の注目度): 5.530212768657545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most 3D instance segmentation methods exploit a bottom-up strategy, typically
including resource-exhaustive post-processing. For point grouping, bottom-up
methods rely on prior assumptions about the objects in the form of
hyperparameters, which are domain-specific and need to be carefully tuned. On
the contrary, we address 3D instance segmentation with a TD3D: the pioneering
cluster-free, fully-convolutional and entirely data-driven approach trained in
an end-to-end manner. This is the first top-down method outperforming bottom-up
approaches in 3D domain. With its straightforward pipeline, it demonstrates
outstanding accuracy and generalization ability on the standard indoor
benchmarks: ScanNet v2, its extension ScanNet200, and S3DIS, as well as on the
aerial STPLS3D dataset. Besides, our method is much faster on inference than
the current state-of-the-art grouping-based approaches: our flagship
modification is 1.9x faster than the most accurate bottom-up method, while
being more accurate, and our faster modification shows state-of-the-art
accuracy running at 2.6x speed. Code is available at
https://github.com/SamsungLabs/td3d .
- Abstract(参考訳): 大部分の3Dインスタンスセグメンテーション手法は、通常はリソース消費後処理を含むボトムアップ戦略を利用する。
ポイントグルーピングでは、ボトムアップ法はハイパーパラメーターの形のオブジェクトに関する事前の仮定に依存し、それはドメイン固有であり、慎重に調整する必要がある。
それとは対照的に、td3dで3dインスタンスセグメンテーションに対処する: エンドツーエンドでトレーニングされた、クラスタフリー、完全な畳み込み、完全なデータ駆動アプローチ。
これは3Dドメインにおけるボトムアップアプローチを上回る最初のトップダウンメソッドである。
ScanNet v2、その拡張であるScanNet200、S3DIS、および空中STPLS3Dデータセットなど、標準的な屋内ベンチマークにおいて優れた精度と一般化能力を示す。
我々のフラッグシップ修正は、最も正確なボトムアップ法よりも1.9倍高速であり、より正確であり、我々の高速な修正は、最先端の精度が2.6倍高速であることを示している。
コードはhttps://github.com/SamsungLabs/td3dで入手できる。
関連論文リスト
- SA3DIP: Segment Any 3D Instance with Potential 3D Priors [41.907914881608995]
本稿では,SA3DIPを提案する。SA3DIPは,任意の3Dインスタンスを,潜在的3Dプライオリティを利用してセグメント化するための新しい手法である。
具体的には,幾何学的およびテクスチャ的先行性の両方に基づいて,相補的な3Dプリミティブを生成する。
一方,3次元検出器を用いて3次元空間からの補足制約を導入し,さらなるマージプロセスの導出を行う。
論文 参考訳(メタデータ) (2024-11-06T10:39:00Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene
Understanding [40.68012530554327]
室内3Dシーン理解のための3DバックボーンであるSSTを導入する。
我々は,線形メモリの複雑さを伴うスパースボクセルの自己アテンションを効率的に行える3Dスウィントランスを,バックボーンネットワークとして設計する。
我々のアプローチによって実現されたスケーラビリティ、汎用性、優れたパフォーマンスをさらに検証する大規模なアブレーション研究のシリーズである。
論文 参考訳(メタデータ) (2023-04-14T02:49:08Z) - SATR: Zero-Shot Semantic Segmentation of 3D Shapes [74.08209893396271]
大規模オフザシェルフ2次元画像認識モデルを用いて3次元形状のゼロショットセマンティックセマンティックセマンティックセグメンテーションの課題について検討する。
本研究では、SATRアルゴリズムを開発し、ShapeNetPartと提案したFAUSTベンチマークを用いて評価する。
SATRは最先端のパフォーマンスを達成し、ベースラインアルゴリズムを平均mIoUの1.3%と4%で上回っている。
論文 参考訳(メタデータ) (2023-04-11T00:43:16Z) - ISBNet: a 3D Point Cloud Instance Segmentation Network with
Instance-aware Sampling and Box-aware Dynamic Convolution [14.88505076974645]
ISBNetは、インスタンスをカーネルとして表現し、動的畳み込みを通じてインスタンスマスクをデコードする新しい方法である。
我々は,ScanNetV2 (55.9), S3DIS (60.8), S3LS3D (49.2) にAPの条件で新たな最先端結果を設定し,ScanNetV2のシーンあたり237msの高速推論時間を保持する。
論文 参考訳(メタデータ) (2023-03-01T06:06:28Z) - TR3D: Towards Real-Time Indoor 3D Object Detection [6.215404942415161]
TR3Dは、エンドツーエンドで訓練された完全畳み込み3Dオブジェクト検出モデルである。
ポイントクラウドとRGBの両方の入力を利用するため、我々は2Dと3Dの機能の早期融合を導入する。
TR3D+FFと呼ばれる初期の特徴融合モデルでは,SUN RGB-Dデータセット上で既存の3Dオブジェクト検出手法よりも優れている。
論文 参考訳(メタデータ) (2023-02-06T15:25:50Z) - PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained
Image-Language Models [56.324516906160234]
一般化可能な3D部分分割は重要だが、ビジョンとロボティクスでは難しい。
本稿では,事前学習した画像言語モデルGLIPを利用して,3次元点雲の低ショット部分分割法を提案する。
我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。
論文 参考訳(メタデータ) (2022-12-03T06:59:01Z) - Superpoint Transformer for 3D Scene Instance Segmentation [7.07321040534471]
本稿では,SPFormer という名称の Superpoint Transformer に基づく,エンドツーエンドの3Dインスタンス分割手法を提案する。
ポイントクラウドからスーパーポイントに潜在的な機能をグループ化し、クエリベクタを通じてインスタンスを直接予測する。
これは、mAPの点でScanNetv2の隠れテストセットを4.3%上回り、高速な推論速度(フレーム当たり247ms)を同時に維持する。
論文 参考訳(メタデータ) (2022-11-28T20:52:53Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - 3DSSD: Point-based 3D Single Stage Object Detector [61.67928229961813]
本稿では,3DSSDと命名された点ベース3次元単段物体検出器を提案し,精度と効率のバランスが良好であることを示す。
提案手法は,最先端のボクセルをベースとした一段法を大差で上回り,二段法に匹敵する性能を有する。
論文 参考訳(メタデータ) (2020-02-24T12:01:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。