論文の概要: Temporal-Channel Transformer for 3D Lidar-Based Video Object Detection
in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2011.13628v1
- Date: Fri, 27 Nov 2020 09:35:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 02:13:03.968253
- Title: Temporal-Channel Transformer for 3D Lidar-Based Video Object Detection
in Autonomous Driving
- Title(参考訳): 自律運転における3次元lidarに基づく映像物体検出のための時間チャネルトランスフォーマ
- Authors: Zhenxun Yuan, Xiao Song, Lei Bai, Wengang Zhou, Zhe Wang, Wanli Ouyang
- Abstract要約: 我々は,リダデータから映像オブジェクトを検出するための時空間領域とチャネル領域の関係をモデル化する,テンポラル・チャネル変換器(Temporal-Channel Transformer)を提案する。
具体的には、トランスの時間チャネルエンコーダは、異なるチャネルやフレームの情報をエンコードするように設計されている。
我々は, nuScenesベンチマークを用いて, 格子ボクセルを用いた3次元物体検出における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 121.44554957537613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The strong demand of autonomous driving in the industry has lead to strong
interest in 3D object detection and resulted in many excellent 3D object
detection algorithms. However, the vast majority of algorithms only model
single-frame data, ignoring the temporal information of the sequence of data.
In this work, we propose a new transformer, called Temporal-Channel
Transformer, to model the spatial-temporal domain and channel domain
relationships for video object detecting from Lidar data. As a special design
of this transformer, the information encoded in the encoder is different from
that in the decoder, i.e. the encoder encodes temporal-channel information of
multiple frames while the decoder decodes the spatial-channel information for
the current frame in a voxel-wise manner. Specifically, the temporal-channel
encoder of the transformer is designed to encode the information of different
channels and frames by utilizing the correlation among features from different
channels and frames. On the other hand, the spatial decoder of the transformer
will decode the information for each location of the current frame. Before
conducting the object detection with detection head, the gate mechanism is
deployed for re-calibrating the features of current frame, which filters out
the object irrelevant information by repetitively refine the representation of
target frame along with the up-sampling process. Experimental results show that
we achieve the state-of-the-art performance in grid voxel-based 3D object
detection on the nuScenes benchmark.
- Abstract(参考訳): 業界における自動運転の強い需要は、3Dオブジェクト検出への強い関心をもたらし、多くの優れた3Dオブジェクト検出アルゴリズムを生み出した。
しかし、ほとんどのアルゴリズムは単一フレームのデータのみをモデル化し、データのシーケンスの時間的情報を無視している。
本研究では,lidarデータから映像物体を検出するための空間-時間領域とチャネル領域の関係をモデル化する,temporal-channel transformerと呼ばれる新しいトランスを提案する。
このトランスの特別な設計として、エンコーダにエンコードされる情報は、デコーダのものと異なる、すなわち、エンコーダは、複数のフレームの時間的チャネル情報をエンコードし、デコーダは、現在のフレームの空間的チャネル情報をボクセル的にデコードする。
具体的には、トランスの時間チャネルエンコーダは、異なるチャネルやフレームの特徴間の相関を利用して、異なるチャネルやフレームの情報をエンコードするように設計されている。
一方、変圧器の空間デコーダは、現在のフレームの各位置の情報を復号する。
検出ヘッドで物体検出を行う前に、ゲート機構を配置して現在のフレームの特徴を再検討し、アップサンプリング処理とともに対象フレームの表現を反復的に洗練することにより、対象情報を無関係にフィルタリングする。
実験の結果,nuscenesベンチマークでグリッドvoxelを用いた3次元物体検出の最先端性能が得られた。
関連論文リスト
- Transformer-based stereo-aware 3D object detection from binocular images [82.85433941479216]
両眼3次元物体検出におけるトランスフォーマーのモデル設計について検討する。
この目的を達成するために、ステレオ対応の3Dオブジェクト検出器TS3Dを提案する。
提案したTS3Dは、KITTIテストセット上で41.29%のモードレートカー検出精度を実現し、各両眼画像対から物体を検出するのに88msを要した。
論文 参考訳(メタデータ) (2023-04-24T08:29:45Z) - Pedestrian Spatio-Temporal Information Fusion For Video Anomaly
Detection [1.5736899098702974]
歩行者の情報を統合するために, 異常検出手法を提案する。
出力フレームと真値との差に応じて異常検出を行う。
The experimental results on the CUHK Avenue and ShanghaiTech datasets shows that the proposed method is superior than the current mainstream video anomaly detection method。
論文 参考訳(メタデータ) (2022-11-18T06:41:02Z) - Focused Decoding Enables 3D Anatomical Detection by Transformers [64.36530874341666]
集束デコーダと呼ばれる3次元解剖学的構造検出のための新しい検出変換器を提案する。
Focused Decoderは、解剖学的領域のアトラスからの情報を活用して、クエリアンカーを同時にデプロイし、クロスアテンションの視野を制限する。
提案手法を利用可能な2つのCTデータセットに対して評価し、フォーカスドデコーダが強力な検出結果を提供するだけでなく、大量の注釈付きデータの必要性を軽減し、注意重みによる結果の例外的で直感的な説明性を示すことを示した。
論文 参考訳(メタデータ) (2022-07-21T22:17:21Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - End-to-End Video Object Detection with Spatial-Temporal Transformers [33.40462554784311]
本稿では,時空間トランスフォーマアーキテクチャに基づくエンドツーエンドのビデオオブジェクト検出モデルであるTransVODを提案する。
本手法では,Seq-NMSやチューブレット再構成のような複雑な後処理は不要である。
これらの設計により、ImageNet VIDデータセット上の大きなマージン(3%-4% mAP)で、強力なベースライン変形可能なDETRが向上した。
論文 参考訳(メタデータ) (2021-05-23T11:44:22Z) - Learning Spatio-Temporal Transformer for Visual Tracking [108.11680070733598]
本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。
メソッド全体がエンドツーエンドであり、コサインウィンドウやバウンディングボックススムーシングのような後処理ステップは不要である。
提案されたトラッカーは、Siam R-CNNよりも6倍速いリアルタイム速度を実行しながら、5つのチャレンジングな短期および長期ベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-31T15:19:19Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。