論文の概要: Temp-Frustum Net: 3D Object Detection with Temporal Fusion
- arxiv url: http://arxiv.org/abs/2104.12106v1
- Date: Sun, 25 Apr 2021 09:08:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:37:41.442492
- Title: Temp-Frustum Net: 3D Object Detection with Temporal Fusion
- Title(参考訳): 時流ネット:時間融合による3次元物体検出
- Authors: Eme\c{c} Er\c{c}elik, Ekim Yurtsever and Alois Knoll
- Abstract要約: 3Dオブジェクト検出は、自動運転システムの中核コンポーネントです。
フレームバイフレームの3dオブジェクト検出はノイズ、視野障害、スパーシティに苦しむ。
これらの問題を緩和するための新しい時間融合モジュールを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection is a core component of automated driving systems.
State-of-the-art methods fuse RGB imagery and LiDAR point cloud data
frame-by-frame for 3D bounding box regression. However, frame-by-frame 3D
object detection suffers from noise, field-of-view obstruction, and sparsity.
We propose a novel Temporal Fusion Module (TFM) to use information from
previous time-steps to mitigate these problems. First, a state-of-the-art
frustum network extracts point cloud features from raw RGB and LiDAR point
cloud data frame-by-frame. Then, our TFM module fuses these features with a
recurrent neural network. As a result, 3D object detection becomes robust
against single frame failures and transient occlusions. Experiments on the
KITTI object tracking dataset show the efficiency of the proposed TFM, where we
obtain ~6%, ~4%, and ~6% improvements on Car, Pedestrian, and Cyclist classes,
respectively, compared to frame-by-frame baselines. Furthermore, ablation
studies reinforce that the subject of improvement is temporal fusion and show
the effects of different placements of TFM in the object detection pipeline.
Our code is open-source and available at
https://gitlab.lrz.de/emec_ercelik/temp-frustnet.
- Abstract(参考訳): 3dオブジェクト検出は、自動運転システムのコアコンポーネントである。
最先端の手法は、3Dバウンディングボックスの回帰のためにRGBイメージとLiDARポイントクラウドデータフレームを融合する。
しかし、フレーム・バイ・フレームの3Dオブジェクト検出はノイズ、視野の障害物、空間性に悩まされている。
本稿では,これらの問題を緩和するために,従来の時間段階の情報を利用する新しい時間融合モジュール(TFM)を提案する。
まず、最先端のフラストムネットワークは、生のRGBとLiDARポイントクラウドデータフレームをフレーム単位で抽出する。
そして、tfmモジュールは、これらの機能をリカレントニューラルネットワークと融合します。
その結果、3次元物体検出は単一フレームの故障や過渡閉塞に対して堅牢となる。
kitti object trackingデータセットにおける実験では、フレーム毎のベースラインと比較して、それぞれ車、歩行者、自転車のクラスで6%、4%、6%の改善が得られたtfmの有効性が示された。
さらに、アブレーション研究は改善の主題が時間融合であることを強化し、対象検出パイプラインにおけるTFMの異なる配置の影響を示す。
私たちのコードはオープンソースで、https://gitlab.lrz.de/emec_ercelik/temp-frustnetで利用可能です。
関連論文リスト
- CRT-Fusion: Camera, Radar, Temporal Fusion Using Motion Information for 3D Object Detection [9.509625131289429]
本稿では,レーダカメラ融合に時間情報を統合する新しいフレームワークであるCRT-Fusionを紹介する。
CRT-Fusionはレーダーカメラによる3Dオブジェクト検出のための最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-05T11:25:19Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - LEF: Late-to-Early Temporal Fusion for LiDAR 3D Object Detection [40.267769862404684]
時間的LiDAR点雲を用いた3次元物体検出のための特徴融合手法を提案する。
私たちの主な動機は、3Dオブジェクト検出器の初期段階にオブジェクト認識の潜伏埋め込みを融合させることです。
論文 参考訳(メタデータ) (2023-09-28T21:58:25Z) - Frame Fusion with Vehicle Motion Prediction for 3D Object Detection [18.354273907772278]
LiDARベースの3D検出では、履歴点雲は将来の予測に役立つ豊富な時間情報を含む。
本研究では,歴史フレームを融合させて3次元物体検出結果を改善する検出拡張手法であるFrameFusionを提案する。
論文 参考訳(メタデータ) (2023-06-19T04:57:53Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - MSF3DDETR: Multi-Sensor Fusion 3D Detection Transformer for Autonomous
Driving [0.0]
MSF3DDETR: 画像とLiDAR機能を融合して検出精度を向上させるマルチセンサフュージョン3D検出変換器アーキテクチャを提案する。
我々のエンドツーエンドのシングルステージ、アンカーフリー、NMSフリーネットワークは、マルチビューイメージとLiDARポイントクラウドを取り込み、3Dバウンディングボックスを予測する。
MSF3DDETRネットワークは、DeTRにインスパイアされたハンガリーのアルゴリズムに基づくバイパーティイトマッチングとセット・ツー・セット・ロスを使用して、nuScenesデータセット上でエンドツーエンドにトレーニングされている。
論文 参考訳(メタデータ) (2022-10-27T10:55:15Z) - 3D-VField: Learning to Adversarially Deform Point Clouds for Robust 3D
Object Detection [111.32054128362427]
安全クリティカルな環境では、アウト・オブ・ディストリビューションとロングテールサンプルの堅牢性は、危険な問題を回避するのに不可欠である。
トレーニング中の変形点雲を考慮した3次元物体検出器の領域外データへの一般化を著しく改善する。
我々は、リアルに損傷を受けた稀な車の合成データセットであるCrashDを提案し、共有する。
論文 参考訳(メタデータ) (2021-12-09T08:50:54Z) - M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object
Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。
M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文 参考訳(メタデータ) (2021-04-24T06:48:23Z) - An LSTM Approach to Temporal 3D Object Detection in LiDAR Point Clouds [16.658604637005535]
LSTMを用いた多フレーム3dオブジェクト検出アルゴリズムを提案する。
我々は、U-Netスタイルのスパース畳み込みネットワークを用いて、各フレームのLiDAR点クラウドの特徴を抽出する。
論文 参考訳(メタデータ) (2020-07-24T07:34:15Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。