論文の概要: MWSIS: Multimodal Weakly Supervised Instance Segmentation with 2D Box
Annotations for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2312.06988v3
- Date: Thu, 14 Dec 2023 03:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 11:36:23.624228
- Title: MWSIS: Multimodal Weakly Supervised Instance Segmentation with 2D Box
Annotations for Autonomous Driving
- Title(参考訳): MWSIS: 自律運転のための2Dボックスアノテーション付きマルチモーダル弱修正インスタンスセグメンテーション
- Authors: Guangfeng Jiang, Jun Liu, Yuzhi Wu, Wenlong Liao, Tao He, Pai Peng
- Abstract要約: 我々はMultimodal Weakly Supervised Instance (MWSIS)と呼ばれる新しいフレームワークを提案する。
MWSISは、様々な細粒度ラベルの生成と修正モジュールを2Dと3Dの両方に組み込んでいる。
完全に教師されたインスタンスセグメンテーションよりも優れており、完全に教師されたアノテーションはわずか5%である。
- 参考スコア(独自算出の注目度): 13.08936676096554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instance segmentation is a fundamental research in computer vision,
especially in autonomous driving. However, manual mask annotation for instance
segmentation is quite time-consuming and costly. To address this problem, some
prior works attempt to apply weakly supervised manner by exploring 2D or 3D
boxes. However, no one has ever successfully segmented 2D and 3D instances
simultaneously by only using 2D box annotations, which could further reduce the
annotation cost by an order of magnitude. Thus, we propose a novel framework
called Multimodal Weakly Supervised Instance Segmentation (MWSIS), which
incorporates various fine-grained label generation and correction modules for
both 2D and 3D modalities to improve the quality of pseudo labels, along with a
new multimodal cross-supervision approach, named Consistency Sparse Cross-modal
Supervision (CSCS), to reduce the inconsistency of multimodal predictions by
response distillation. Particularly, transferring the 3D backbone to downstream
tasks not only improves the performance of the 3D detectors, but also
outperforms fully supervised instance segmentation with only 5% fully
supervised annotations. On the Waymo dataset, the proposed framework
demonstrates significant improvements over the baseline, especially achieving
2.59% mAP and 12.75% mAP increases for 2D and 3D instance segmentation tasks,
respectively. The code is available at
https://github.com/jiangxb98/mwsis-plugin.
- Abstract(参考訳): インスタンス分割はコンピュータビジョン、特に自動運転における基本的な研究である。
しかし、インスタンスセグメンテーションのための手動マスクアノテーションはかなり時間がかかり、コストがかかる。
この問題に対処するために、いくつかの先行研究は2dまたは3dボックスを探索することで、弱い監督の方法を適用しようとする。
しかし、誰も2Dボックスアノテーションだけで2Dと3Dのインスタンスを同時に分割することに成功していないため、アノテーションのコストは桁違いに削減できる。
そこで,本稿では,mwsis(multimodal weakly supervised instance segmentation)と呼ばれる新しいフレームワークを提案する。このフレームワークは,疑似ラベルの品質を向上させるために,様々な細粒度ラベル生成および修正モジュールを2dおよび3dモダリティの両方に組み込んで,一貫性スパースクロスモーダル監督(consistency sparse cross-modal supervisor, cscs)という新しい手法とともに,応答蒸留によるマルチモーダル予測の不一致を低減する。
特に、3dバックボーンを下流タスクに移すと、3d検出器の性能が向上するだけでなく、5%の完全教師付きアノテーションで完全に教師付きインスタンスセグメンテーションを上回ってしまう。
Waymoデータセットでは、提案されたフレームワークがベースラインを大幅に改善し、特に2Dと3Dのインスタンスセグメンテーションタスクで2.59%のmAPと12.75%のmAPを達成した。
コードはhttps://github.com/jiangxb98/mwsis-pluginで入手できる。
関連論文リスト
- MSTA3D: Multi-scale Twin-attention for 3D Instance Segmentation [7.400926717561454]
MSTA3Dはスーパーポイントベースの3Dインスタンスセグメンテーションのための新しいフレームワークである。
マルチスケールの特徴表現を利用し、それらを効果的にキャプチャするためのツインアテンション機構を導入している。
我々の手法は最先端の3Dインスタンスセグメンテーション手法を超越している。
論文 参考訳(メタデータ) (2024-11-04T04:14:39Z) - Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - Instance Consistency Regularization for Semi-Supervised 3D Instance Segmentation [50.51125319374404]
ラベルのないデータから純粋なインスタンス知識を探索し活用するための,新たな自己学習ネットワークInsTeacher3Dを提案する。
複数の大規模データセットの実験結果から、InsTeacher3Dは最先端の半教師付きアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-06-24T16:35:58Z) - SAM-guided Graph Cut for 3D Instance Segmentation [60.75119991853605]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。
本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。
本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文 参考訳(メタデータ) (2023-12-13T18:59:58Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - LWSIS: LiDAR-guided Weakly Supervised Instance Segmentation for
Autonomous Driving [34.119642131912485]
より巧妙なフレームワークであるLiDAR誘導弱監視インスタンス(LWSIS)を提示する。
LWSISは市販の3Dデータ、すなわちポイントクラウドと3Dボックスを2Dイメージインスタンスセグメンテーションモデルをトレーニングするための自然な弱い監督手段として使用している。
我々のLWSISは、訓練中のマルチモーダルデータの補完情報を利用するだけでなく、密集した2Dマスクのコストを大幅に削減します。
論文 参考訳(メタデータ) (2022-12-07T08:08:01Z) - ICM-3D: Instantiated Category Modeling for 3D Instance Segmentation [19.575077449759377]
Instaniated categorization を用いて3Dインスタンスを分割するシングルステップ手法 ICM-3D を提案する。
我々は、ICM-3Dの有効性を検証するための広範な実験を行い、複数のフレームワーク、バックボーン、ベンチマークにまたがるインスピレーションされた性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-26T13:08:37Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。