論文の概要: Towards Long-Tailed 3D Detection
- arxiv url: http://arxiv.org/abs/2211.08691v1
- Date: Wed, 16 Nov 2022 06:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 16:27:30.286473
- Title: Towards Long-Tailed 3D Detection
- Title(参考訳): 長尺3次元検出に向けて
- Authors: Neehar Peri, Achal Dave, Deva Ramanan, Shu Kong
- Abstract要約: 本研究では,Long-Tailed 3D Detection (LT3D) の課題について検討した。
私たちは、CenterPointやPointPillarsといった一般的な3D検出に適応し、LT3Dに適応します。
各クラスの平均APは5%改善し,レアクラスのAPは劇的に改善した。
- 参考スコア(独自算出の注目度): 56.82185415482943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary autonomous vehicle (AV) benchmarks have advanced techniques for
training 3D detectors, particularly on large-scale lidar data. Surprisingly,
although semantic class labels naturally follow a long-tailed distribution,
contemporary benchmarks focus on only a few common classes (e.g., pedestrian
and car) and neglect many rare classes in-the-tail (e.g., debris and stroller).
However, AVs must still detect rare classes to ensure safe operation. Moreover,
semantic classes are often organized within a hierarchy, e.g., tail classes
such as child and construction-worker are arguably subclasses of pedestrian.
However, such hierarchical relationships are often ignored, which may lead to
misleading estimates of performance and missed opportunities for algorithmic
innovation. We address these challenges by formally studying the problem of
Long-Tailed 3D Detection (LT3D), which evaluates on all classes, including
those in-the-tail. We evaluate and innovate upon popular 3D detection
codebases, such as CenterPoint and PointPillars, adapting them for LT3D. We
develop hierarchical losses that promote feature sharing across common-vs-rare
classes, as well as improved detection metrics that award partial credit to
"reasonable" mistakes respecting the hierarchy (e.g., mistaking a child for an
adult). Finally, we point out that fine-grained tail class accuracy is
particularly improved via multimodal fusion of RGB images with LiDAR; simply
put, small fine-grained classes are challenging to identify from sparse (lidar)
geometry alone, suggesting that multimodal cues are crucial to long-tailed 3D
detection. Our modifications improve accuracy by 5% AP on average for all
classes, and dramatically improve AP for rare classes (e.g., stroller AP
improves from 3.6 to 31.6)!
- Abstract(参考訳): 現代の自動運転車(AV)ベンチマークは、特に大規模ライダーデータに基づいて3D検出器を訓練するための高度な技術を持っている。
驚くべきことに、セマンティッククラスラベルは自然に長い尾の分布に従うが、現代のベンチマークはいくつかの共通クラス(歩行者や車など)に焦点を合わせ、多くの珍しいクラス(破片やベビーカーなど)を無視している。
しかし、安全操作を保証するためにavsは希少なクラスを検出する必要がある。
さらに、セマンティッククラスは階層内で組織されることが多い。例えば、子や建設作業員のような尾クラスは、間違いなく歩行者のサブクラスである。
しかし、このような階層的な関係はしばしば無視され、パフォーマンスの誤解を招く可能性があり、アルゴリズムによるイノベーションの機会を逃してしまう。
我々は,この課題を全クラスで評価可能なlt3d(long-tailed 3d detection)の問題を正式に検討することで解決する。
我々は,CenterPointやPointPillarsなどの一般的な3D検出コードベースを評価し,LT3Dに適応させる。
我々は,共通vs-rareクラス間の機能共有を促進する階層的損失と,階層性(例えば,子どもを大人に誤用する)に関する"理不尽な"誤りに対する部分的クレジットを与える検出指標の改善を実現した。
最後に,LiDARによるRGB画像のマルチモーダル融合により,微粒なテールクラスの精度が特に向上することが指摘されている。
全クラスで平均5%AP精度を向上し、レアクラスのAPを劇的に改善する(例:ベビーカーAPは3.6から31.6に改善)。
関連論文リスト
- Shelf-Supervised Cross-Modal Pre-Training for 3D Object Detection [52.66283064389691]
最先端の3Dオブジェクト検出器は、しばしば大量のラベル付きデータセットで訓練される。
近年の研究では、ラベル付きデータによる自己教師付き事前学習が、ラベル付きラベルによる検出精度を向上させることが示されている。
組合わせRGBとLiDARデータからゼロショット3Dバウンディングボックスを生成するためのシェルフ制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-14T15:21:57Z) - Long-Tailed 3D Detection via Multi-Modal Fusion [47.03801888003686]
本研究では,Long-Tailed 3D Detection (LT3D) の問題点について検討した。
単モードLiDARとRGB検出器を独立に訓練した多モード遅延核融合(MMLF)により,レアクラスの精度が特に向上することが指摘されている。
提案するMMLFアプローチは,従来の作業よりもLT3Dの性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-18T07:14:25Z) - DualTeacher: Bridging Coexistence of Unlabelled Classes for
Semi-supervised Incremental Object Detection [53.8061502411777]
現実世界のアプリケーションでは、オブジェクト検出器は、しばしば新しいクラスのオブジェクトインスタンスに遭遇し、それらを効果的に適合させる必要がある。
以前の作業では、この重要な問題をインクリメンタルオブジェクト検出(IOD)として定式化しており、新しいクラスのオブジェクトインスタンスがインクリメンタルデータで完全に注釈付けされていると仮定している。
我々は、より現実的な半教師付きIOD (SSIOD) について考察する。オブジェクト検出器は、ラベル付きデータと大量の非ラベル付きデータから、段階的に新しいクラスを学習する必要がある。
論文 参考訳(メタデータ) (2023-12-13T10:46:14Z) - 3DMOTFormer: Graph Transformer for Online 3D Multi-Object Tracking [15.330384668966806]
最先端の3Dマルチオブジェクト追跡(MOT)アプローチは通常、Kalman Filterのような非学習モデルベースのアルゴリズムに依存している。
本稿では3DMOTFormerを提案する。この3D MOTフレームワークはトランスフォーマーアーキテクチャをベースに構築されている。
提案手法は, nuScenesバリデーションとテストスプリットでそれぞれ71.2%, AMOTA68.2%を達成している。
論文 参考訳(メタデータ) (2023-08-12T19:19:58Z) - DC3DCD: unsupervised learning for multiclass 3D point cloud change
detection [0.0]
本稿では,DC3DCD(Deep 3D Change Detection)と呼ばれる教師なしの手法を提案する。
本手法は,画像分類のためのDeepClusterアプローチに基づいて,複雑な生の3DPCを扱う。
論文 参考訳(メタデータ) (2023-05-09T13:13:53Z) - Generalized Few-Shot 3D Object Detection of LiDAR Point Cloud for
Autonomous Driving [91.39625612027386]
我々は,一般的な(ベース)オブジェクトに対して大量のトレーニングデータを持つが,レア(ノーベル)クラスに対してはごく少数のデータしか持たない,一般化された数発の3Dオブジェクト検出という新しいタスクを提案する。
具体的には、画像と点雲の奥行きの違いを分析し、3D LiDARデータセットにおける少数ショット設定の実践的原理を示す。
この課題を解決するために,既存の3次元検出モデルを拡張し,一般的なオブジェクトと稀なオブジェクトの両方を認識するためのインクリメンタルな微調整手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T07:11:36Z) - Improving the Intra-class Long-tail in 3D Detection via Rare Example
Mining [29.699694480757472]
最高のパフォーマンスモデルでさえ、まれな例では最も単純なミスに悩まされます。
データサポートの欠如によるレアネスが3次元検出器におけるデータ中心の改善の鍵であることを示す。
本稿では,特徴空間における密度推定に基づいて,物体の希少性を同定する汎用的かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-10-15T20:52:07Z) - Train in Germany, Test in The USA: Making 3D Object Detectors Generalize [59.455225176042404]
ディープラーニングにより、LiDARやステレオカメラデータなどの3Dオブジェクト検出精度が大幅に向上した。
自動運転のためのほとんどのデータセットは、1つの国内の都市の狭い部分で収集される。
本稿では,あるデータセットから別のデータセットに3Dオブジェクト検出器を適応させる作業について考察する。
論文 参考訳(メタデータ) (2020-05-17T00:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。