論文の概要: SDOD:Real-time Segmenting and Detecting 3D Object by Depth
- arxiv url: http://arxiv.org/abs/2001.09425v3
- Date: Sat, 24 Oct 2020 08:59:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 19:35:31.482658
- Title: SDOD:Real-time Segmenting and Detecting 3D Object by Depth
- Title(参考訳): SDOD:深度による3次元物体のリアルタイム分割と検出
- Authors: Shengjie Li, Caiyi Xu, Jianping Xing, Yafei Ning, Yonghong Chen
- Abstract要約: 本稿では,3次元物体を奥行きで分割・検出するリアルタイムフレームワークを提案する。
オブジェクトの深さを深度カテゴリに分類し、インスタンス分割タスクをピクセルレベルの分類タスクに変換する。
挑戦的なKITTIデータセットの実験から、我々のアプローチはLklNetを約1.8倍の性能で、セグメンテーションと3D検出の速度を上回ります。
- 参考スコア(独自算出の注目度): 5.97602869680438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing instance segmentation methods only focus on improving
performance and are not suitable for real-time scenes such as autonomous
driving. This paper proposes a real-time framework that segmenting and
detecting 3D objects by depth. The framework is composed of two parallel
branches: one for instance segmentation and another for object detection. We
discretize the objects' depth into depth categories and transform the instance
segmentation task into a pixel-level classification task. The Mask branch
predicts pixel-level depth categories, and the 3D branch indicates
instance-level depth categories. We produce an instance mask by assigning
pixels which have the same depth categories to each instance. In addition, to
solve the imbalance between mask labels and 3D labels in the KITTI dataset, we
introduce a coarse mask generated by the auto-annotation model to increase
samples. Experiments on the challenging KITTI dataset show that our approach
outperforms LklNet about 1.8 times on the speed of segmentation and 3D
detection.
- Abstract(参考訳): 既存のインスタンスセグメンテーションのほとんどはパフォーマンスの向上にのみ焦点を合わせており、自動運転のようなリアルタイムシーンには適していない。
本稿では,3dオブジェクトを深さ分割して検出するリアルタイムフレームワークを提案する。
このフレームワークは、セグメンテーションの1つとオブジェクト検出のもう1つの2つの並列ブランチで構成されている。
オブジェクトの深さを深さカテゴリに分類し、インスタンス分割タスクをピクセルレベルの分類タスクに変換する。
Maskブランチはピクセルレベルの深さカテゴリを予測し、3Dブランチはインスタンスレベルの深さカテゴリを示す。
それぞれのインスタンスに同じ深さカテゴリのピクセルを割り当てることで、インスタンスマスクを作成します。
さらに,KITTIデータセットにおけるマスクラベルと3Dラベルの不均衡を解決するために,自動アノテーションモデルによって生成される粗いマスクを導入し,サンプル量を増やす。
挑戦的なKITTIデータセットの実験から、我々のアプローチはLklNetを約1.8倍の性能で、セグメンテーションと3D検出の速度を上回ります。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance [49.14140194332482]
Open3DISは3Dシーン内でのOpen-Vocabulary Instanceの問題に対処するために設計された新しいソリューションである。
3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
論文 参考訳(メタデータ) (2023-12-17T10:07:03Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Mask3D: Mask Transformer for 3D Semantic Instance Segmentation [89.41640045953378]
一般的なTransformerビルディングブロックを利用して、3Dポイントクラウドからインスタンスマスクを直接予測できることが示されています。
Transformerデコーダを使用して、インスタンスクエリは、複数のスケールでクラウド機能をポイントする反復的な参加者によって学習される。
Mask3Dは、新しい最先端ScanNetテスト(+6.2 mAP)、S3DIS 6-fold(+10.1 mAP)、LS3D(+11.2 mAP)、ScanNet200テスト(+12.4 mAP)を設定する。
論文 参考訳(メタデータ) (2022-10-06T17:55:09Z) - 3D Instance Segmentation of MVS Buildings [5.2517244720510305]
本稿では,多視点ステレオ(MVS)都市シーンから3次元建物をセグメント化するための新しい枠組みを提案する。
この研究の重点は、大型で不正確な3D表面モデルに取り付けられたとしても、3Dビルディングインスタンスを検出し、セグメンテーションすることにある。
論文 参考訳(メタデータ) (2021-12-18T11:12:38Z) - SOLO: A Simple Framework for Instance Segmentation [84.00519148562606]
インスタンスカテゴリ"は、インスタンスの場所に応じて、インスタンス内の各ピクセルにカテゴリを割り当てる。
SOLO"は、強力なパフォーマンスを備えたインスタンスセグメンテーションのための、シンプルで、直接的で、高速なフレームワークです。
提案手法は, 高速化と精度の両面から, 実例分割の最先端結果を実現する。
論文 参考訳(メタデータ) (2021-06-30T09:56:54Z) - Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with
Deep Metric Learning [5.699350798684963]
ディープラーニングを用いた3次元インスタンスセグメンテーションのための,単純かつ効率的なアルゴリズムを提案する。
大規模シーンからの高レベルのインテリジェントなタスクに対して、3Dインスタンスセグメンテーションはオブジェクトの個々のインスタンスを認識する。
我々は,ScanNet 3D インスタンス分割ベンチマークにおいて,我々のアルゴリズムの最先端性能をAPスコアで示す。
論文 参考訳(メタデータ) (2020-07-07T02:17:44Z) - CenterMask: single shot instance segmentation with point representation [16.464056972736838]
本稿では,シンプルで高速かつ高精度な単一ショット・インスタンス・セグメンテーション手法を提案する。
提案されたCenterMaskは12.3fpsのスピードで34.5マスクAPを達成した。
本手法はFCOSなどの他の一段物検出装置に容易に組み込むことができ,性能も良好である。
論文 参考訳(メタデータ) (2020-04-09T09:35:15Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。