論文の概要: Cascaded information enhancement and cross-modal attention feature
fusion for multispectral pedestrian detection
- arxiv url: http://arxiv.org/abs/2302.08670v1
- Date: Fri, 17 Feb 2023 03:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 15:56:44.490627
- Title: Cascaded information enhancement and cross-modal attention feature
fusion for multispectral pedestrian detection
- Title(参考訳): 多スペクトル歩行者検出のためのカスケード情報強調と相互注意特徴融合
- Authors: Yang Yang, Kaixiong Xu, Kaizheng Wang
- Abstract要約: 本稿では、主にカスケード情報強調モジュールと、モーダル間注目機能融合モジュールからなる多スペクトル歩行者検出アルゴリズムを提案する。
提案手法は,提案手法と比較して,歩行者のミス率と歩行者検出ボックスの精度が低いことを示す。
- 参考スコア(独自算出の注目度): 6.167053377021009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multispectral pedestrian detection is a technology designed to detect and
locate pedestrians in Color and Thermal images, which has been widely used in
automatic driving, video surveillance, etc. So far most available multispectral
pedestrian detection algorithms only achieved limited success in pedestrian
detection because of the lacking take into account the confusion of pedestrian
information and background noise in Color and Thermal images. Here we propose a
multispectral pedestrian detection algorithm, which mainly consists of a
cascaded information enhancement module and a cross-modal attention feature
fusion module. On the one hand, the cascaded information enhancement module
adopts the channel and spatial attention mechanism to perform attention
weighting on the features fused by the cascaded feature fusion block. Moreover,
it multiplies the single-modal features with the attention weight element by
element to enhance the pedestrian features in the single-modal and thus
suppress the interference from the background. On the other hand, the
cross-modal attention feature fusion module mines the features of both Color
and Thermal modalities to complement each other, then the global features are
constructed by adding the cross-modal complemented features element by element,
which are attentionally weighted to achieve the effective fusion of the two
modal features. Finally, the fused features are input into the detection head
to detect and locate pedestrians. Extensive experiments have been performed on
two improved versions of annotations (sanitized annotations and paired
annotations) of the public dataset KAIST. The experimental results show that
our method demonstrates a lower pedestrian miss rate and more accurate
pedestrian detection boxes compared to the comparison method. Additionally, the
ablation experiment also proved the effectiveness of each module designed in
this paper.
- Abstract(参考訳): マルチスペクトル歩行者検出は、自動走行やビデオ監視などにおいて広く使われている色と熱画像中の歩行者を検知・検出する技術である。
これまでのマルチスペクトル歩行者検出アルゴリズムは,色や熱画像における歩行者情報と背景雑音の混同を考慮に入れず,歩行者検出に限定的であった。
本稿では、主にカスケード情報強調モジュールと、モーダル間注目機能融合モジュールからなる多スペクトル歩行者検出アルゴリズムを提案する。
一方、カスケード情報強調モジュールは、チャネル及び空間的注意機構を採用し、カスケード特徴融合ブロックによって融合された特徴に対する注意重み付けを行う。
さらに、注意重み要素を要素別に1モーダル特徴を乗じて、シングルモーダルの歩行者特徴を高め、背景からの干渉を抑制する。
一方、クロスモーダル注目機能融合モジュールは、カラーモードとサーマルモードの両方の特徴を相互補完するためにマイニングし、これら2つのモーダル特徴の効果的融合を実現するために、注意的に重み付けされたクロスモーダル補完特徴要素を要素別に付加することにより、グローバル特徴を構築する。
最後に、融合した特徴を検出ヘッドに入力して歩行者の検出・発見を行う。
公開データセットKAISTの2つの改良されたアノテーション(衛生アノテーションとペアアノテーション)に対して、大規模な実験が行われた。
実験の結果,提案手法は,比較法と比較して歩行者のミス率と歩行者検出ボックスの精度が低いことを示した。
さらに, アブレーション実験により, 設計した各モジュールの有効性を実証した。
関連論文リスト
- Transferring Modality-Aware Pedestrian Attentive Learning for
Visible-Infrared Person Re-identification [43.05147831905626]
本稿では,トランスファーリング・モダリティを意識した歩行者注意学習(TMPA)モデルを提案する。
TMPAは、欠落したモダリティ固有の特徴を効率的に補うために歩行者地域に焦点を当てている。
ベンチマークSYSU-MM01とRegDBデータセットを用いて実験を行い,提案したTMPAモデルの有効性を実証した。
論文 参考訳(メタデータ) (2023-12-12T07:15:17Z) - ReDFeat: Recoupling Detection and Description for Multimodal Feature
Learning [51.07496081296863]
我々は、相互重み付け戦略による多モーダル特徴学習の検出と記述の独立した制約を再定義する。
本研究では,大きな受容場を有し,学習可能な非最大抑制層を備える検出器を提案する。
我々は,特徴マッチングと画像登録タスクにおける特徴量を評価するために,クロス可視,赤外線,近赤外,合成開口レーダ画像ペアを含むベンチマークを構築した。
論文 参考訳(メタデータ) (2022-05-16T04:24:22Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Cross-Modality Attentive Feature Fusion for Object Detection in
Multispectral Remote Sensing Imagery [0.6853165736531939]
マルチスペクトルリモートセンシング画像ペアの相補的な情報を融合するクロスモダリティは、検出アルゴリズムの知覚能力を向上させることができる。
本稿では,共通モダリティと差分モダリティを併用した,新規で軽量なマルチスペクトル特徴融合法を提案する。
提案手法は,最先端の性能を低コストで実現することができる。
論文 参考訳(メタデータ) (2021-12-06T13:12:36Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Mutual-Supervised Feature Modulation Network for Occluded Pedestrian
Detection [10.497367073305806]
そこで本稿では,閉鎖型歩行者検出をより効果的に扱うために,Multual-Supervised Feature Modulation (MSFM) ネットワークを提案する。
MSFMモジュールは、同じ歩行者に対応するフルボディボックスと可視ボディボックスの類似度損失を算出する。
提案手法は,2つの課題のある歩行者データセット上での他の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2020-10-21T03:42:22Z) - From Handcrafted to Deep Features for Pedestrian Detection: A Survey [148.35460817092908]
歩行者検出はコンピュータビジョンにおいて重要であるが難しい問題である。
過去10年間で、手作りの機能と深い機能によって、大幅な改善が見られた。
単スペクトル歩行者検出に加えて,多スペクトル歩行者検出も検討した。
論文 参考訳(メタデータ) (2020-10-01T14:51:10Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Dense Scene Multiple Object Tracking with Box-Plane Matching [73.54369833671772]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要なタスクである。
密集したシーンにおけるMOT性能を改善するために,Box-Plane Matching (BPM)法を提案する。
3つのモジュールの有効性により、ACM MM Grand Challenge HiEve 2020において、私たちのチームはトラック1のリーダーボードで1位を獲得しました。
論文 参考訳(メタデータ) (2020-07-30T16:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。