論文の概要: Semi-Supervised 3D Object Detection with Channel Augmentation using Transformation Equivariance
- arxiv url: http://arxiv.org/abs/2409.06583v2
- Date: Sun, 22 Sep 2024 11:06:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 22:05:05.694405
- Title: Semi-Supervised 3D Object Detection with Channel Augmentation using Transformation Equivariance
- Title(参考訳): 変態等価性を用いたチャネル拡張による半監督型3次元物体検出
- Authors: Minju Kang, Taehun Kong, Tae-Kyun Kim,
- Abstract要約: 本稿では,3次元半教師対象検出のためのチャネル拡張を用いた新しい教師学生フレームワークについて検討する。
原則として、教師ネットワークに固定チャネル拡張を適用することにより、学生は信頼できる擬似ラベルで安定的に訓練することができる。
提案手法をKITTIデータセットを用いて評価し,SOTA3D半教師付き物体検出モデルを上回る性能向上を実現した。
- 参考スコア(独自算出の注目度): 25.068639796096434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate 3D object detection is crucial for autonomous vehicles and robots to navigate and interact with the environment safely and effectively. Meanwhile, the performance of 3D detector relies on the data size and annotation which is expensive. Consequently, the demand of training with limited labeled data is growing. We explore a novel teacher-student framework employing channel augmentation for 3D semi-supervised object detection. The teacher-student SSL typically adopts a weak augmentation and strong augmentation to teacher and student, respectively. In this work, we apply multiple channel augmentations to both networks using the transformation equivariance detector (TED). The TED allows us to explore different combinations of augmentation on point clouds and efficiently aggregates multi-channel transformation equivariance features. In principle, by adopting fixed channel augmentations for the teacher network, the student can train stably on reliable pseudo-labels. Adopting strong channel augmentations can enrich the diversity of data, fostering robustness to transformations and enhancing generalization performance of the student network. We use SOTA hierarchical supervision as a baseline and adapt its dual-threshold to TED, which is called channel IoU consistency. We evaluate our method with KITTI dataset, and achieved a significant performance leap, surpassing SOTA 3D semi-supervised object detection models.
- Abstract(参考訳): 正確な3Dオブジェクト検出は、自動運転車やロボットにとって、安全かつ効果的に環境をナビゲートし、対話する上で不可欠である。
一方、3D検出器の性能は高価であるデータサイズとアノテーションに依存している。
その結果,ラベル付きデータによるトレーニングの需要が高まっている。
本稿では,3次元半教師対象検出のためのチャネル拡張を用いた新しい教師学生フレームワークについて検討する。
教師の学生SSLは、教師と生徒にそれぞれ弱い増補と強い増補を採用するのが一般的である。
本研究では、変換等分散検出器(TED)を用いて、両方のネットワークに多重チャネル拡張を適用する。
TEDにより、点雲上の拡張の異なる組み合わせを探索し、マルチチャネル変換等式を効率的に集約することができる。
原則として、教師ネットワークに固定チャネル拡張を適用することにより、学生は信頼できる擬似ラベルで安定的に訓練することができる。
強力なチャネル拡張を採用することで、データの多様性を強化し、変換に対する堅牢性を高め、学生ネットワークの一般化性能を向上させることができる。
我々はSOTA階層的監視をベースラインとして使用し、その二重閾値をTEDに適応させ、これはチャネルIoU整合性と呼ばれる。
提案手法をKITTIデータセットを用いて評価し,SOTA3D半教師付き物体検出モデルを上回る性能向上を実現した。
関連論文リスト
- Unleashing the Potential of Mamba: Boosting a LiDAR 3D Sparse Detector by Using Cross-Model Knowledge Distillation [22.653014803666668]
FASDと呼ばれる高速LiDAR3Dオブジェクト検出フレームワークを提案する。
高速シーケンスモデリングのための変換器のキャパシティをFLOPの低いMambaモデルに蒸留し,知識伝達による精度の向上を実現することを目的とする。
我々は,データセットとnuScenesのフレームワークを評価し,リソース消費の4倍の削減と,現在のSoTA手法よりも1-2%の性能向上を実現した。
論文 参考訳(メタデータ) (2024-09-17T09:30:43Z) - Power of Cooperative Supervision: Multiple Teachers Framework for Enhanced 3D Semi-Supervised Object Detection [0.7499722271664147]
多様な都市環境とオブジェクト特性を反映したマルチクラス3次元LiDARデータセットを構築した。
我々は,複数の教師の枠組みに基づく頑健な3次元半教師対象検出(SSOD)を開発した。
マルチクラスのLiDARデータセットとソースコードをGithubリポジトリで公開する予定です。
論文 参考訳(メタデータ) (2024-05-31T09:23:25Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - Hierarchical Supervision and Shuffle Data Augmentation for 3D
Semi-Supervised Object Detection [90.32180043449263]
最先端の3Dオブジェクト検出器は通常、高品質な3Dアノテーションを備えた大規模データセットで訓練される。
自然な治療法は、限られた量のラベル付きサンプルと豊富なラベル付きサンプルを活用することで、半教師付き学習(SSL)を採用することである。
本稿では,HSSDA(Hierarchical Supervision and Shuffle Data Augmentation)の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-04T02:09:32Z) - itKD: Interchange Transfer-based Knowledge Distillation for 3D Object
Detection [3.735965959270874]
本稿では,チャネルワイド圧縮と非圧縮を含むオートエンコーダスタイルのフレームワークを提案する。
教師ネットワークのマップビュー特徴を学習するために、教師ネットワークと学生ネットワークの機能は、共有オートエンコーダを介して独立して渡される。
マルチヘッド自己認識機構によって引き起こされた3次元物体検出情報と一致するように,頭部の注意損失を示す。
論文 参考訳(メタデータ) (2022-05-31T04:25:37Z) - Unsupervised Domain Adaptation for Monocular 3D Object Detection via
Self-Training [57.25828870799331]
我々は、Mono3D上での教師なしドメイン適応のための新しい自己学習フレームワークSTMono3Dを提案する。
対象ドメイン上で適応的な擬似ラベルを生成するための教師学生パラダイムを開発する。
STMono3Dは、評価されたすべてのデータセットで顕著なパフォーマンスを達成し、KITTI 3Dオブジェクト検出データセットの完全な教師付き結果を超えています。
論文 参考訳(メタデータ) (2022-04-25T12:23:07Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。