Fugu-MT 論文翻訳(概要): BAANet: Learning Bi-directional Adaptive Attention Gates for Multispectral Pedestrian Detection

論文の概要: BAANet: Learning Bi-directional Adaptive Attention Gates for Multispectral Pedestrian Detection

arxiv url: http://arxiv.org/abs/2112.02277v1
Date: Sat, 4 Dec 2021 08:30:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-07 16:40:06.669136
Title: BAANet: Learning Bi-directional Adaptive Attention Gates for Multispectral Pedestrian Detection
Title（参考訳）: BAANet:マルチスペクトル歩行者検出のための双方向適応アテンションゲートの学習
Authors: Xiaoxiao Yang, Yeqian Qiang, Huijie Zhu, Chunxiang Wang, Ming Yang
Abstract要約: 本研究は、双方向適応ゲート(BAA-Gate)と呼ばれる効率的かつ効率的な相互モード融合モジュールを提案する。注意機構に基づいて、BAA-ゲイトは情報的特徴を蒸留し、表現を再検討するために考案された。挑戦的なKAISTデータセットに関する検討実験により,本手法の優れた性能を満足な速さで実証した。
参考スコア（独自算出の注目度）: 14.672188805059744
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Thermal infrared (TIR) image has proven effectiveness in providing temperature cues to the RGB features for multispectral pedestrian detection. Most existing methods directly inject the TIR modality into the RGB-based framework or simply ensemble the results of two modalities. This, however, could lead to inferior detection performance, as the RGB and TIR features generally have modality-specific noise, which might worsen the features along with the propagation of the network. Therefore, this work proposes an effective and efficient cross-modality fusion module called Bi-directional Adaptive Attention Gate (BAA-Gate). Based on the attention mechanism, the BAA-Gate is devised to distill the informative features and recalibrate the representations asymptotically. Concretely, a bi-direction multi-stage fusion strategy is adopted to progressively optimize features of two modalities and retain their specificity during the propagation. Moreover, an adaptive interaction of BAA-Gate is introduced by the illumination-based weighting strategy to adaptively adjust the recalibrating and aggregating strength in the BAA-Gate and enhance the robustness towards illumination changes. Considerable experiments on the challenging KAIST dataset demonstrate the superior performance of our method with satisfactory speed.
Abstract（参考訳）: 熱赤外(TIR)画像は、多スペクトル歩行者検出のためのRGB特徴に温度手がかりを提供することの有効性が証明されている。既存のほとんどの手法は、RGBベースのフレームワークに直接TIRモダリティを注入するか、2つのモダリティの結果を単純にアンサンブルする。しかし、これはRGBとTIRの特徴が一般的にモダリティ固有のノイズを持つため、ネットワークの伝搬とともに特徴が悪化する可能性があるため、検出性能が低下する可能性がある。そこで本研究では,双方向適応注意ゲート (baa-gate) と呼ばれる効率的なクロスモダリティ融合モジュールを提案する。注意機構に基づき、情報的特徴を蒸留し、漸近的に表現を再調整するためにbaaゲートが考案される。具体的には、双方向多段核融合戦略を採用し、2つの様相の特徴を漸進的に最適化し、伝播中にそれらの特異性を保持する。さらに、照明に基づく重み付け戦略により、BAAゲートの緩和および凝集強度を適応的に調整し、照明変化に対するロバスト性を高めるため、BAAゲートの適応的相互作用を導入する。挑戦的なKAISTデータセットに関する検討実験により,本手法の優れた性能を良好な速度で実証した。

関連論文リスト

KAN-SAM: Kolmogorov-Arnold Network Guided Segment Anything Model for RGB-T Salient Object Detection [35.52055285209549]
そこで本研究では,RGB-T SODタスクの視覚的基礎モデルの可能性を明らかにする。具体的には,RGB-T SODのSegment Anything Model 2 (SAM2) を拡張した。また、RGBデータへの依存を減らし、一般化を改善するために、相互排他的なランダムマスキング戦略を導入する。
論文参考訳（メタデータ） (2025-04-08T10:07:02Z)
Adaptive Illumination-Invariant Synergistic Feature Integration in a Stratified Granular Framework for Visible-Infrared Re-Identification [18.221111822542024]
Visible-Infrared Person Re-Identification (VI-ReID) は、捜索・救助、インフラ保護、夜間監視などの応用において重要な役割を担っている。適応型モダリティインタラクションネットワークである textbfAMINet を提案する。 AMINetは、全体画像と上体画像の両方から包括的アイデンティティ属性をキャプチャするために、多粒度特徴抽出を利用する。
論文参考訳（メタデータ） (2025-02-28T15:42:58Z)
PedDet: Adaptive Spectral Optimization for Multimodal Pedestrian Detection [28.06976064484559]
PedDetは適応的なスペクトル最適化フレームワークで、特にマルチスペクトル歩行者検出に最適化されている。 PedDetは最先端の性能を実現し、低照度でも検出精度が良く、mAPを6.6%向上させる。
論文参考訳（メタデータ） (2025-02-19T19:31:51Z)
Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文参考訳（メタデータ） (2025-01-25T06:21:06Z)
DEYOLO: Dual-Feature-Enhancement YOLO for Cross-Modality Object Detection [5.946464547429392]
照明の悪い環境での物体検出は、通常RGB画像でははっきりと見えないため、難しい作業である。本稿では,デュアルエンハンスメントに基づくオブジェクト検出ネットワークDEYOLOを提案する。提案手法は,SOTAオブジェクト検出アルゴリズムよりも明確なマージンで優れている。
論文参考訳（メタデータ） (2024-12-06T10:39:11Z)
Multi-Modal Hybrid Learning and Sequential Training for RGB-T Saliency Detection [10.589062261564631]
RGB-Tサリエンシ検出は、暗黒環境のような困難な場面で顕著な物体を識別する重要なコンピュータビジョンタスクとして登場した。既存の手法では、クロスモーダルの特徴を無視し、RGBと熱的特徴を融合させるネットワーク構造のみに依存している。まず、教師付きおよび自己教師付き損失関数を含むマルチモーダルハイブリッド損失(MMHL)を提案する。
論文参考訳（メタデータ） (2023-09-13T20:47:29Z)
RGB-T Tracking Based on Mixed Attention [5.151994214135177]
RGB-Tトラッキングには、可視光と熱の両モードの画像の使用が含まれる。本稿では,モーダルの相補的な融合を実現するための混合注意機構に基づくRGB-Tトラッカーを提案する。
論文参考訳（メタデータ） (2023-04-09T15:59:41Z)
Decomposed Cross-modal Distillation for RGB-based Temporal Action Detection [23.48709176879878]
時間的アクション検出は、ビデオ内の時間間隔とアクションインスタンスのクラスを予測することを目的としている。既存の2ストリームモデルでは、計算コストの高い光フローに依存するため、推論速度が遅い。本稿では,移動モーダルの知識を伝達することで,RGBベースの強力な検出器を構築するためのクロスモーダル蒸留フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-30T10:47:26Z)
R2FD2: Fast and Robust Matching of Multimodal Remote Sensing Image via Repeatable Feature Detector and Rotation-invariant Feature Descriptor [3.395266574804949]
放射・回転差に頑健な特徴マッチング法(R2FD2)を提案する。提案したR2FD2は、5つの最先端特徴マッチング法より優れ、普遍性と適応性に優れた利点がある。我々のR2FD2は2ピクセル以内のマッチングの精度を達成し、他の最先端手法と比較してマッチング効率に大きな利点がある。
論文参考訳（メタデータ） (2022-12-05T13:55:02Z)
Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。 5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文参考訳（メタデータ） (2022-06-07T08:35:41Z)
Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文参考訳（メタデータ） (2021-12-01T15:53:58Z)
DUT-LFSaliency: Versatile Dataset and Light Field-to-RGB Saliency Detection [104.50425501764806]
ライトフィールドサリエンシー検出のための汎用性の高いアプリケーションを可能にする大規模なデータセットを紹介します。本論文では,フォカルストリームとRGBストリームからなる非対称2ストリームモデルを提案する。実験は、我々の焦点ストリームが最先端のパフォーマンスを達成することを実証する。
論文参考訳（メタデータ） (2020-12-30T11:53:27Z)
Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文参考訳（メタデータ） (2020-07-17T18:35:24Z)
RGB-D Salient Object Detection with Cross-Modality Modulation and Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文参考訳（メタデータ） (2020-07-14T14:22:50Z)
Optimization-driven Deep Reinforcement Learning for Robust Beamforming in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文参考訳（メタデータ） (2020-05-25T01:42:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。