論文の概要: BAANet: Learning Bi-directional Adaptive Attention Gates for
Multispectral Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2112.02277v1
- Date: Sat, 4 Dec 2021 08:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 16:40:06.669136
- Title: BAANet: Learning Bi-directional Adaptive Attention Gates for
Multispectral Pedestrian Detection
- Title(参考訳): BAANet:マルチスペクトル歩行者検出のための双方向適応アテンションゲートの学習
- Authors: Xiaoxiao Yang, Yeqian Qiang, Huijie Zhu, Chunxiang Wang, Ming Yang
- Abstract要約: 本研究は、双方向適応ゲート(BAA-Gate)と呼ばれる効率的かつ効率的な相互モード融合モジュールを提案する。
注意機構に基づいて、BAA-ゲイトは情報的特徴を蒸留し、表現を再検討するために考案された。
挑戦的なKAISTデータセットに関する検討実験により,本手法の優れた性能を満足な速さで実証した。
- 参考スコア(独自算出の注目度): 14.672188805059744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thermal infrared (TIR) image has proven effectiveness in providing
temperature cues to the RGB features for multispectral pedestrian detection.
Most existing methods directly inject the TIR modality into the RGB-based
framework or simply ensemble the results of two modalities. This, however,
could lead to inferior detection performance, as the RGB and TIR features
generally have modality-specific noise, which might worsen the features along
with the propagation of the network. Therefore, this work proposes an effective
and efficient cross-modality fusion module called Bi-directional Adaptive
Attention Gate (BAA-Gate). Based on the attention mechanism, the BAA-Gate is
devised to distill the informative features and recalibrate the representations
asymptotically. Concretely, a bi-direction multi-stage fusion strategy is
adopted to progressively optimize features of two modalities and retain their
specificity during the propagation. Moreover, an adaptive interaction of
BAA-Gate is introduced by the illumination-based weighting strategy to
adaptively adjust the recalibrating and aggregating strength in the BAA-Gate
and enhance the robustness towards illumination changes. Considerable
experiments on the challenging KAIST dataset demonstrate the superior
performance of our method with satisfactory speed.
- Abstract(参考訳): 熱赤外(TIR)画像は、多スペクトル歩行者検出のためのRGB特徴に温度手がかりを提供することの有効性が証明されている。
既存のほとんどの手法は、RGBベースのフレームワークに直接TIRモダリティを注入するか、2つのモダリティの結果を単純にアンサンブルする。
しかし、これはRGBとTIRの特徴が一般的にモダリティ固有のノイズを持つため、ネットワークの伝搬とともに特徴が悪化する可能性があるため、検出性能が低下する可能性がある。
そこで本研究では,双方向適応注意ゲート (baa-gate) と呼ばれる効率的なクロスモダリティ融合モジュールを提案する。
注意機構に基づき、情報的特徴を蒸留し、漸近的に表現を再調整するためにbaaゲートが考案される。
具体的には、双方向多段核融合戦略を採用し、2つの様相の特徴を漸進的に最適化し、伝播中にそれらの特異性を保持する。
さらに、照明に基づく重み付け戦略により、BAAゲートの緩和および凝集強度を適応的に調整し、照明変化に対するロバスト性を高めるため、BAAゲートの適応的相互作用を導入する。
挑戦的なKAISTデータセットに関する検討実験により,本手法の優れた性能を良好な速度で実証した。
関連論文リスト
- PedDet: Adaptive Spectral Optimization for Multimodal Pedestrian Detection [28.06976064484559]
PedDetは適応的なスペクトル最適化フレームワークで、特にマルチスペクトル歩行者検出に最適化されている。
PedDetは最先端の性能を実現し、低照度でも検出精度が良く、mAPを6.6%向上させる。
論文 参考訳(メタデータ) (2025-02-19T19:31:51Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - DEYOLO: Dual-Feature-Enhancement YOLO for Cross-Modality Object Detection [5.946464547429392]
照明の悪い環境での物体検出は、通常RGB画像でははっきりと見えないため、難しい作業である。
本稿では,デュアルエンハンスメントに基づくオブジェクト検出ネットワークDEYOLOを提案する。
提案手法は,SOTAオブジェクト検出アルゴリズムよりも明確なマージンで優れている。
論文 参考訳(メタデータ) (2024-12-06T10:39:11Z) - Multi-Modal Hybrid Learning and Sequential Training for RGB-T Saliency
Detection [10.589062261564631]
RGB-Tサリエンシ検出は、暗黒環境のような困難な場面で顕著な物体を識別する重要なコンピュータビジョンタスクとして登場した。
既存の手法では、クロスモーダルの特徴を無視し、RGBと熱的特徴を融合させるネットワーク構造のみに依存している。
まず、教師付きおよび自己教師付き損失関数を含むマルチモーダルハイブリッド損失(MMHL)を提案する。
論文 参考訳(メタデータ) (2023-09-13T20:47:29Z) - RGB-T Tracking Based on Mixed Attention [5.151994214135177]
RGB-Tトラッキングには、可視光と熱の両モードの画像の使用が含まれる。
本稿では,モーダルの相補的な融合を実現するための混合注意機構に基づくRGB-Tトラッカーを提案する。
論文 参考訳(メタデータ) (2023-04-09T15:59:41Z) - Decomposed Cross-modal Distillation for RGB-based Temporal Action
Detection [23.48709176879878]
時間的アクション検出は、ビデオ内の時間間隔とアクションインスタンスのクラスを予測することを目的としている。
既存の2ストリームモデルでは、計算コストの高い光フローに依存するため、推論速度が遅い。
本稿では,移動モーダルの知識を伝達することで,RGBベースの強力な検出器を構築するためのクロスモーダル蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-30T10:47:26Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - DUT-LFSaliency: Versatile Dataset and Light Field-to-RGB Saliency
Detection [104.50425501764806]
ライトフィールドサリエンシー検出のための汎用性の高いアプリケーションを可能にする大規模なデータセットを紹介します。
本論文では,フォカルストリームとRGBストリームからなる非対称2ストリームモデルを提案する。
実験は、我々の焦点ストリームが最先端のパフォーマンスを達成することを実証する。
論文 参考訳(メタデータ) (2020-12-30T11:53:27Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。