論文の概要: Language-Driven Active Learning for Diverse Open-Set 3D Object Detection
- arxiv url: http://arxiv.org/abs/2404.12856v2
- Date: Tue, 18 Jun 2024 07:34:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 01:44:57.431589
- Title: Language-Driven Active Learning for Diverse Open-Set 3D Object Detection
- Title(参考訳): 異種オープンセット3次元物体検出のための言語駆動型能動学習
- Authors: Ross Greer, Bjørk Antoniussen, Andreas Møgelmose, Mohan Trivedi,
- Abstract要約: 多様なオープンセット3Dオブジェクト検出のための言語駆動型アクティブラーニングフレームワークであるVisLEDを提案する。
本手法は,ラベルのないプールから多種多様な情報的データサンプルを検索するために,能動的学習手法を活用する。
VisLED-Queryingは、ランダムサンプリングを一貫して上回り、競合性能を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection is crucial for ensuring safe autonomous driving. However, data-driven approaches face challenges when encountering minority or novel objects in the 3D driving scene. In this paper, we propose VisLED, a language-driven active learning framework for diverse open-set 3D Object Detection. Our method leverages active learning techniques to query diverse and informative data samples from an unlabeled pool, enhancing the model's ability to detect underrepresented or novel objects. Specifically, we introduce the Vision-Language Embedding Diversity Querying (VisLED-Querying) algorithm, which operates in both open-world exploring and closed-world mining settings. In open-world exploring, VisLED-Querying selects data points most novel relative to existing data, while in closed-world mining, it mines novel instances of known classes. We evaluate our approach on the nuScenes dataset and demonstrate its efficiency compared to random sampling and entropy-querying methods. Our results show that VisLED-Querying consistently outperforms random sampling and offers competitive performance compared to entropy-querying despite the latter's model-optimality, highlighting the potential of VisLED for improving object detection in autonomous driving scenarios. We make our code publicly available at https://github.com/Bjork-crypto/VisLED-Querying
- Abstract(参考訳): 物体検出は安全な自動運転を保証するために不可欠である。
しかし、データ駆動アプローチは、3D駆動シーンで少数または新しいオブジェクトに遭遇する際の課題に直面している。
本稿では,多種多様なオープンセット3Dオブジェクト検出のための言語駆動型能動学習フレームワークVisLEDを提案する。
本手法は,非ラベル付きプールから多種多様な情報的データサンプルを検索し,表現不足や新規なオブジェクトを検出する能力を高めるために,能動的学習技術を活用する。
具体的には、オープンワールド探索とクローズドワールドマイニングの両方で動作するVision-Language Embedding Diversity Querying (VisLED-Querying)アルゴリズムを紹介する。
オープンワールド探索では、VisLED-Queryingは既存のデータと比較して最も新しいデータポイントを選択し、クローズドワールドマイニングでは、既知のクラスの新しいインスタンスをマイニングする。
提案手法をnuScenesデータセット上で評価し,ランダムサンプリング法やエントロピークエリ法と比較し,その効率性を示した。
その結果、VisLED-Queryingは、モデル最適化にもかかわらず、ランダムサンプリングを一貫して上回り、エントロピークエリと比較して競争性能が向上し、自律運転シナリオにおけるオブジェクト検出の改善にVisLEDの可能性を浮き彫りにした。
コードをhttps://github.com/Bjork-crypto/VisLED-Queryingで公開しています。
関連論文リスト
- STONE: A Submodular Optimization Framework for Active 3D Object Detection [20.54906045954377]
正確な3Dオブジェクト検出器をトレーニングするための鍵となる要件は、大量のLiDARベースのポイントクラウドデータが利用できることである。
本稿では,3次元物体検出装置のトレーニングにおけるラベル付けコストを大幅に削減する,統合されたアクティブな3次元物体検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-04T20:45:33Z) - Open3DTrack: Towards Open-Vocabulary 3D Multi-Object Tracking [73.05477052645885]
オープンな語彙的3Dトラッキングを導入し、3Dトラッキングの範囲を広げて、定義済みのカテゴリを超えてオブジェクトを含める。
本稿では,オープン語彙機能を3次元トラッキングフレームワークに統合し,オブジェクトクラスが見えないように一般化する手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T15:48:42Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - FocalFormer3D : Focusing on Hard Instance for 3D Object Detection [97.56185033488168]
3次元物体検出における偽陰性(False negatives, FN)は、自動運転において潜在的に危険な状況を引き起こす可能性がある。
本研究では,マルチステージ方式でtextitFN を識別する汎用パイプラインである Hard Instance Probing (HIP) を提案する。
この手法をFocalFormer3Dとしてインスタンス化する。
論文 参考訳(メタデータ) (2023-08-08T20:06:12Z) - View-to-Label: Multi-View Consistency for Self-Supervised 3D Object
Detection [46.077668660248534]
本稿では,RGBシーケンスのみから,自己監督型3Dオブジェクト検出を行う手法を提案する。
KITTI 3Dデータセットを用いた実験では,最先端の自己管理手法と同等の性能を示した。
論文 参考訳(メタデータ) (2023-05-29T09:30:39Z) - Exploring Diversity-based Active Learning for 3D Object Detection in Autonomous Driving [45.405303803618]
多様性に基づくアクティブラーニング(AL)を,アノテーションの負担を軽減するための潜在的解決策として検討する。
選択したサンプルの空間的・時間的多様性を強制する新しい取得関数を提案する。
提案手法がnuScenesデータセットに与える影響を実証し,既存のAL戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-05-16T14:21:30Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。