論文の概要: MambaST: A Plug-and-Play Cross-Spectral Spatial-Temporal Fuser for Efficient Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2408.01037v1
- Date: Fri, 2 Aug 2024 06:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 14:26:49.199240
- Title: MambaST: A Plug-and-Play Cross-Spectral Spatial-Temporal Fuser for Efficient Pedestrian Detection
- Title(参考訳): MambaST:効率的な歩行者検出のためのプラグイン・アンド・プレイ型クロススペクトル時空間フィルタ
- Authors: Xiangbo Gao, Asiegbu Miracle Kanu-Asiegbu, Xiaoxiao Du,
- Abstract要約: 本稿では,効率的な歩行者検出のためのプラグ・アンド・プレイ型時空間融合パイプラインであるMambaSTを提案する。
暗黒または低照度条件下でRGBカメラを用いて正確な検出を行うことは困難である。
また,提案モデルにより,小規模歩行者検出の性能も向上する。
- 参考スコア(独自算出の注目度): 0.5898893619901381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes MambaST, a plug-and-play cross-spectral spatial-temporal fusion pipeline for efficient pedestrian detection. Several challenges exist for pedestrian detection in autonomous driving applications. First, it is difficult to perform accurate detection using RGB cameras under dark or low-light conditions. Cross-spectral systems must be developed to integrate complementary information from multiple sensor modalities, such as thermal and visible cameras, to improve the robustness of the detections. Second, pedestrian detection models are latency-sensitive. Efficient and easy-to-scale detection models with fewer parameters are highly desirable for real-time applications such as autonomous driving. Third, pedestrian video data provides spatial-temporal correlations of pedestrian movement. It is beneficial to incorporate temporal as well as spatial information to enhance pedestrian detection. This work leverages recent advances in the state space model (Mamba) and proposes a novel Multi-head Hierarchical Patching and Aggregation (MHHPA) structure to extract both fine-grained and coarse-grained information from both RGB and thermal imagery. Experimental results show that the proposed MHHPA is an effective and efficient alternative to a Transformer model for cross-spectral pedestrian detection. Our proposed model also achieves superior performance on small-scale pedestrian detection. The code is available at https://github.com/XiangboGaoBarry/MambaST}{https://github.com/XiangboGaoBarry/MambaST.
- Abstract(参考訳): 本稿では,効率的な歩行者検出のためのプラグ・アンド・プレイ型時空間融合パイプラインであるMambaSTを提案する。
自動運転車の歩行者検出にはいくつかの課題がある。
第一に、暗黒または低照度条件下でRGBカメラを用いて正確な検出を行うことは困難である。
サーマルカメラや可視カメラなどの複数のセンサモードからの補完情報を統合して、検出の堅牢性を向上させるために、クロススペクトルシステムを開発する必要がある。
第二に、歩行者検出モデルは遅延に敏感である。
パラメータが少ない効率的な大規模検出モデルは、自律運転のようなリアルタイムアプリケーションに非常に望ましい。
第3に、歩行者映像データは歩行者の動きの空間的時間的相関を提供する。
時間的・空間的な情報を取り入れて歩行者検出を強化することは有益である。
この研究は、状態空間モデル(Mamba)の最近の進歩を活用し、RGBと熱画像の両方から細粒度と粗粒度の情報を抽出する新しいMHPA(Multi-head Hierarchical Patching and Aggregation)構造を提案する。
実験結果から,提案したMHHPAは,横断歩行者検出のためのトランスフォーマーモデルに代わる有効かつ効率的な代替手段であることがわかった。
また,提案モデルにより,小規模歩行者検出の性能も向上する。
コードはhttps://github.com/XiangboGaoBarry/MambaST}{https://github.com/XiangboGaoBarry/MambaSTで入手できる。
関連論文リスト
- A lightweight YOLOv5-FFM model for occlusion pedestrian detection [1.62877896907106]
ヨロは、効率的で単純な1段階目標検出法であり、様々な環境における歩行者検出によく用いられる。
本稿では,これらの問題に対処する軽量YOLOv5モデルを提案する。
このモデルは浮動小数点演算(FLOP)の少ない歩行者検出精度を向上させることができる。
論文 参考訳(メタデータ) (2024-08-13T04:42:02Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - Correlating sparse sensing for large-scale traffic speed estimation: A
Laplacian-enhanced low-rank tensor kriging approach [76.45949280328838]
本稿では,Laplacian enhanced Low-rank tensor (LETC) フレームワークを提案する。
次に,提案したモデルをネットワークワイド・クリグにスケールアップするために,複数の有効な数値手法を用いて効率的な解アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-21T07:25:57Z) - Cross-Camera Trajectories Help Person Retrieval in a Camera Network [124.65912458467643]
既存の手法では、純粋な視覚的マッチングや時間的制約を考慮することが多いが、カメラネットワークの空間情報は無視する。
本稿では,時間的情報と空間的情報を統合したクロスカメラ生成に基づく歩行者検索フレームワークを提案する。
本手法の有効性を検証するため,最初のカメラ横断歩行者軌跡データセットを構築した。
論文 参考訳(メタデータ) (2022-04-27T13:10:48Z) - Illumination and Temperature-Aware Multispectral Networks for
Edge-Computing-Enabled Pedestrian Detection [10.454696553567809]
本研究は,高精度かつ効率的な歩行者検出のための軽量照明・温度対応マルチスペクトルネットワーク(IT-MN)を提案する。
提案アルゴリズムは、車載カメラで収集した公開データセットを用いて、選択した最先端アルゴリズムと比較して評価する。
提案アルゴリズムは,GPU上の画像ペアあたり14.19%,0.03秒の低ミス率と推論時間を実現する。
論文 参考訳(メタデータ) (2021-12-09T17:27:23Z) - A Pedestrian Detection and Tracking Framework for Autonomous Cars:
Efficient Fusion of Camera and LiDAR Data [0.17205106391379021]
本稿では,カメラとLiDARセンサデータを用いた歩行者検出と追跡のための新しい手法を提案する。
検出フェーズは、LiDARストリームを計算的に抽出可能な深度画像に変換し、さらに、歩行者候補を特定するディープニューラルネットワークを開発する。
トラッキングフェーズは、Kalmanフィルタ予測と、シーン内の複数の歩行者を追跡するための光フローアルゴリズムの組み合わせである。
論文 参考訳(メタデータ) (2021-08-27T16:16:01Z) - 2nd Place Solution for Waymo Open Dataset Challenge - Real-time 2D
Object Detection [26.086623067939605]
本稿では,画像から2次元物体を検出するリアルタイム手法を提案する。
我々は、加速度RTを活用して、検出パイプラインの推論時間を最適化する。
我々のフレームワークはNvidia Tesla V100 GPU上で45.8ms/frameのレイテンシを実現する。
論文 参考訳(メタデータ) (2021-06-16T11:32:03Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。