論文の概要: MonoLSS: Learnable Sample Selection For Monocular 3D Detection
- arxiv url: http://arxiv.org/abs/2312.14474v2
- Date: Wed, 22 May 2024 07:35:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-26 19:54:19.212034
- Title: MonoLSS: Learnable Sample Selection For Monocular 3D Detection
- Title(参考訳): MonoLSS: モノクロ3D検出のための学習可能なサンプル選択
- Authors: Zhenjia Li, Jinrang Jia, Yifeng Shi,
- Abstract要約: Learnable Sample Selection (LSS)モジュールはGumbelSoftmaxと相対距離サンプル分割器をベースとしている。
MixUp3D法は、曖昧さを伴わない画像の原理に適合する3Dプロパティーサンプルを濃縮するために用いられる。
KITTIの3Dオブジェクト検出ベンチマークにおいて,MonoLSSは3つのカテゴリ(カー,サイクリスト,ペデストリアン)で1位にランクインした。
- 参考スコア(独自算出の注目度): 3.165441652093544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of autonomous driving, monocular 3D detection is a critical task which estimates 3D properties (depth, dimension, and orientation) of objects in a single RGB image. Previous works have used features in a heuristic way to learn 3D properties, without considering that inappropriate features could have adverse effects. In this paper, sample selection is introduced that only suitable samples should be trained to regress the 3D properties. To select samples adaptively, we propose a Learnable Sample Selection (LSS) module, which is based on Gumbel-Softmax and a relative-distance sample divider. The LSS module works under a warm-up strategy leading to an improvement in training stability. Additionally, since the LSS module dedicated to 3D property sample selection relies on object-level features, we further develop a data augmentation method named MixUp3D to enrich 3D property samples which conforms to imaging principles without introducing ambiguity. As two orthogonal methods, the LSS module and MixUp3D can be utilized independently or in conjunction. Sufficient experiments have shown that their combined use can lead to synergistic effects, yielding improvements that transcend the mere sum of their individual applications. Leveraging the LSS module and the MixUp3D, without any extra data, our method named MonoLSS ranks 1st in all three categories (Car, Cyclist, and Pedestrian) on KITTI 3D object detection benchmark, and achieves competitive results on both the Waymo dataset and KITTI-nuScenes cross-dataset evaluation. The code is included in the supplementary material and will be released to facilitate related academic and industrial studies.
- Abstract(参考訳): 自律運転の分野では、1つのRGB画像における物体の3次元特性(深さ、寸法、方向)を推定する1つの重要なタスクである。
これまでの研究では、不適切な特徴が悪影響を及ぼす可能性を考慮せずに、3Dプロパティを学習するために、ヒューリスティックな方法で機能を使用した。
本稿では,3次元特性を回復させるために適切なサンプルのみを訓練すべきであることを示す。
サンプルを適応的に選択するために,Gumbel-Softmaxと相対距離サンプル分割器をベースとしたLearningable Sample Selection (LSS)モジュールを提案する。
LSSモジュールはウォームアップ戦略の下で動作し、トレーニングの安定性が向上する。
さらに、3Dプロパティのサンプル選択専用のLSSモジュールは、オブジェクトレベルの特徴に依存しているため、曖昧さを伴わずに画像の原理に適合した3Dプロパティのサンプルを濃縮するMixUp3Dというデータ拡張手法をさらに発展させる。
2つの直交法として、LSSモジュールとMixUp3Dは独立または共同で使用できる。
十分な実験により、それらの組み合わせが相乗効果をもたらし、個々の応用の単なる総和を超越する改善をもたらすことが示されている。
LSSモジュールとMixUp3Dを利用すると、余分なデータなしでMonoLSSというメソッドは、KITTIの3Dオブジェクト検出ベンチマークで3つのカテゴリ(Car, Cyclist, Pedestrian)で1位にランクされ、WaymoデータセットとKITTI-nuScenesのクロスデータセット評価で競合する結果が得られる。
コードは補助資料に含まれており、関連する学術・工業研究を促進するためにリリースされる。
関連論文リスト
- Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene [22.297964850282177]
教師なし3次元検出のためのLiDAR-2D Self-paced Learning (LiSe)を提案する。
RGB画像は、正確な2Dローカライゼーションキューを提供するLiDARデータの貴重な補完となる。
本フレームワークでは,適応型サンプリングと弱いモデルアグリゲーション戦略を組み込んだ自己評価学習パイプラインを考案する。
論文 参考訳(メタデータ) (2024-07-11T14:58:49Z) - Dual-Perspective Knowledge Enrichment for Semi-Supervised 3D Object
Detection [55.210991151015534]
本稿では, DPKE という新しい2次元知識豊か化手法を提案する。
我々のDPKEは、データパースペクティブと機能パースペクティブという2つの観点から、限られたトレーニングデータ、特にラベルなしデータの知識を豊かにしています。
論文 参考訳(メタデータ) (2024-01-10T08:56:07Z) - Every Dataset Counts: Scaling up Monocular 3D Object Detection with
Joint Datasets Training [8.759849966732519]
本研究では,多種多様な3次元および2次元データセットを用いたモノクロ3次元物体検出モデルの学習パイプラインについて検討した。
提案フレームワークは,(1)様々なカメラ設定にまたがって機能するロバストなモノクル3Dモデル,(2)異なるクラスアノテーションでデータセットを適応するための選択学習戦略,(3)2Dラベルを用いた擬似3Dトレーニング手法により,2Dラベルのみを含むシーンにおける検出性能を向上させる。
論文 参考訳(メタデータ) (2023-10-02T06:17:24Z) - 3D Adversarial Augmentations for Robust Out-of-Domain Predictions [115.74319739738571]
ドメイン外データへの一般化の改善に注力する。
対象を逆向きに変形させるベクトルの集合を学習する。
本研究では,学習したサンプル非依存ベクトルをモデルトレーニング時に利用可能なオブジェクトに適用することにより,対数拡大を行う。
論文 参考訳(メタデータ) (2023-08-29T17:58:55Z) - GOOD: General Optimization-based Fusion for 3D Object Detection via
LiDAR-Camera Object Candidates [10.534984939225014]
3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。
Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。
nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
論文 参考訳(メタデータ) (2023-03-17T07:05:04Z) - Uni3D: A Unified Baseline for Multi-dataset 3D Object Detection [34.2238222373818]
現在の3Dオブジェクト検出モデルは、単一のデータセット固有のトレーニングとテストのパラダイムに従っている。
本稿では,複数のデータセットから統合された3次元検出器を訓練する作業について検討する。
単純なデータレベルの修正操作と設計された意味レベルの結合・再結合モジュールを利用するUni3Dを提案する。
論文 参考訳(メタデータ) (2023-03-13T05:54:13Z) - MonoDistill: Learning Spatial Features for Monocular 3D Object Detection [80.74622486604886]
本稿では,LiDAR信号からの空間情報を単分子3D検出器に導入するための簡易かつ効果的な手法を提案する。
得られたデータを用いて、ベースラインモデルと同じアーキテクチャで3D検出器をトレーニングする。
実験の結果,提案手法はベースラインモデルの性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-26T09:21:41Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Learning Feature Aggregation for Deep 3D Morphable Models [57.1266963015401]
階層レベルで機能集約を向上するためのマッピング行列を学習するための注意に基づくモジュールを提案する。
実験の結果,マッピング行列のエンドツーエンドトレーニングにより,様々な3次元形状データセットの最先端結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-05-05T16:41:00Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。