論文の概要: ActiveAnno3D -- An Active Learning Framework for Multi-Modal 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2402.03235v1
- Date: Mon, 5 Feb 2024 17:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 14:46:07.377350
- Title: ActiveAnno3D -- An Active Learning Framework for Multi-Modal 3D Object
Detection
- Title(参考訳): ActiveAnno3D - マルチモーダル3Dオブジェクト検出のためのアクティブラーニングフレームワーク
- Authors: Ahmed Ghita, Bj{\o}rk Antoniussen, Walter Zimmer, Ross Greer,
Christian Cre{\ss}, Andreas M{\o}gelmose, Mohan M. Trivedi, Alois C. Knoll
- Abstract要約: ラベル付けのためのデータサンプルを選択するためのアクティブラーニングフレームワークであるActiveAnno3Dを提案する。
我々は nuScenes と TUM Traffic Intersection データセット上で BEVFusion と PV-RCNN を用いて実験およびアブレーション研究を行った。
アクティブな学習フレームワークをproAnnoラベリングツールに統合し、AIによるデータ選択とラベリングを可能にします。
- 参考スコア(独自算出の注目度): 15.885344033374393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The curation of large-scale datasets is still costly and requires much time
and resources. Data is often manually labeled, and the challenge of creating
high-quality datasets remains. In this work, we fill the research gap using
active learning for multi-modal 3D object detection. We propose ActiveAnno3D,
an active learning framework to select data samples for labeling that are of
maximum informativeness for training. We explore various continuous training
methods and integrate the most efficient method regarding computational demand
and detection performance. Furthermore, we perform extensive experiments and
ablation studies with BEVFusion and PV-RCNN on the nuScenes and TUM Traffic
Intersection dataset. We show that we can achieve almost the same performance
with PV-RCNN and the entropy-based query strategy when using only half of the
training data (77.25 mAP compared to 83.50 mAP) of the TUM Traffic Intersection
dataset. BEVFusion achieved an mAP of 64.31 when using half of the training
data and 75.0 mAP when using the complete nuScenes dataset. We integrate our
active learning framework into the proAnno labeling tool to enable AI-assisted
data selection and labeling and minimize the labeling costs. Finally, we
provide code, weights, and visualization results on our website:
https://active3d-framework.github.io/active3d-framework.
- Abstract(参考訳): 大規模なデータセットのキュレーションは依然としてコストがかかり、多くの時間とリソースを必要とする。
データは手作業でラベル付けされることが多く、高品質なデータセットを作成するという課題は残る。
本研究では,マルチモーダル3次元物体検出のためのアクティブラーニングによる研究ギャップを埋める。
本研究では,学習に最適なラベル付けのためのデータサンプルを選択するためのアクティブラーニングフレームワークであるActiveAnno3Dを提案する。
各種連続学習手法を探索し,計算要求および検出性能に関する最も効率的な手法を統合する。
さらに nuScenes および TUM Traffic Intersection データセット上で, BEVFusion および PV-RCNN を用いた広範囲な実験およびアブレーション実験を行った。
TUMトラフィックインターセクションデータセットのトレーニングデータ(83.50mAPに対して77.25mAP)の半分しか使用していない場合、PV-RCNNとエントロピーベースのクエリ戦略でほぼ同じ性能が得られることを示す。
BEVFusionはトレーニングデータの半分を使用すると64.31mAP、完全なnuScenesデータセットを使用すると75.0mAPを達成した。
アクティブな学習フレームワークをproAnnoラベリングツールに統合し、AIによるデータ選択とラベリングを可能にし、ラベリングコストを最小化します。
最後に、私たちのウェブサイトでコード、重み、可視化結果を提供しています。 https://active3d-framework.github.io/active3d-framework。
関連論文リスト
- STONE: A Submodular Optimization Framework for Active 3D Object Detection [20.54906045954377]
正確な3Dオブジェクト検出器をトレーニングするための鍵となる要件は、大量のLiDARベースのポイントクラウドデータが利用できることである。
本稿では,3次元物体検出装置のトレーニングにおけるラベル付けコストを大幅に削減する,統合されたアクティブな3次元物体検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-04T20:45:33Z) - The Why, When, and How to Use Active Learning in Large-Data-Driven 3D
Object Detection for Safe Autonomous Driving: An Empirical Exploration [1.2815904071470705]
エントロピークエリは、リソース制約のある環境でモデル学習を強化するデータを選択するための有望な戦略である。
この結果から,エントロピークエリは資源制約のある環境でのモデル学習を促進するデータ選択に有望な戦略であることが示唆された。
論文 参考訳(メタデータ) (2024-01-30T00:14:13Z) - AutoSynth: Learning to Generate 3D Training Data for Object Point Cloud
Registration [69.21282992341007]
Auto Synthは、ポイントクラウド登録のための3Dトレーニングデータを自動的に生成する。
私たちはポイントクラウド登録ネットワークをもっと小さなサロゲートネットワークに置き換え、4056.43$のスピードアップを実現しました。
TUD-L,LINEMOD,Occluded-LINEMODに関する我々の研究結果は,検索データセットでトレーニングされたニューラルネットワークが,広く使用されているModelNet40データセットでトレーニングされたニューラルネットワークよりも一貫してパフォーマンスが向上していることを示す。
論文 参考訳(メタデータ) (2023-09-20T09:29:44Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Self-Supervised Human Activity Recognition with Localized Time-Frequency
Contrastive Representation Learning [16.457778420360537]
スマートフォン加速度計データを用いた人間行動認識のための自己教師付き学習ソリューションを提案する。
加速度計信号から強い表現を学習し,クラスラベルへの依存度を低減させるモデルを開発した。
提案手法の性能をMotionSense, HAPT, HHARの3つのデータセットで評価した。
論文 参考訳(メタデータ) (2022-08-26T22:47:18Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z) - ETRI-Activity3D: A Large-Scale RGB-D Dataset for Robots to Recognize
Daily Activities of the Elderly [6.597705088139007]
ETRI-Activity3Dと呼ばれる新しいデータセットを導入し,ロボットビューにおける高齢者の日常活動に着目した。
提案したデータセットには、RGBビデオ、深さマップ、骨格配列を含む112,620のサンプルが含まれている。
また,4ストリーム適応CNN(FSA-CNN)と呼ばれる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-04T07:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。