論文の概要: $\mathbf{C}^2$Former: Calibrated and Complementary Transformer for
RGB-Infrared Object Detection
- arxiv url: http://arxiv.org/abs/2306.16175v1
- Date: Wed, 28 Jun 2023 12:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 14:16:34.976573
- Title: $\mathbf{C}^2$Former: Calibrated and Complementary Transformer for
RGB-Infrared Object Detection
- Title(参考訳): $\mathbf{c}^2$former:rgb赤外物体検出のための校正および補完トランスフォーマー
- Authors: Maoxun Yuan, Xingxing Wei
- Abstract要約: 本稿では,モダリティの誤校正や不正確な問題に対処するため,$mathrmC2$Formerと呼ばれる新しい校正・補足変換器を提案する。
mathrmC2$Formerは機能ドメインで機能するため、バックボーンネットワークを介して既存のRGB-IRオブジェクト検出器に組み込むことができる。
- 参考スコア(独自算出の注目度): 12.357454407460768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection on visible (RGB) and infrared (IR) images, as an emerging
solution to facilitate robust detection for around-the-clock applications, has
received extensive attention in recent years. With the help of IR images,
object detectors have been more reliable and robust in practical applications
by using RGB-IR combined information. However, existing methods still suffer
from modality miscalibration and fusion imprecision problems. Since transformer
has the powerful capability to model the pairwise correlations between
different features, in this paper, we propose a novel Calibrated and
Complementary Transformer called $\mathrm{C}^2$Former to address these two
problems simultaneously. In $\mathrm{C}^2$Former, we design an Inter-modality
Cross-Attention (ICA) module to obtain the calibrated and complementary
features by learning the cross-attention relationship between the RGB and IR
modality. To reduce the computational cost caused by computing the global
attention in ICA, an Adaptive Feature Sampling (AFS) module is introduced to
decrease the dimension of feature maps. Because $\mathrm{C}^2$Former performs
in the feature domain, it can be embedded into existed RGB-IR object detectors
via the backbone network. Thus, one single-stage and one two-stage object
detector both incorporating our $\mathrm{C}^2$Former are constructed to
evaluate its effectiveness and versatility. With extensive experiments on the
DroneVehicle and KAIST RGB-IR datasets, we verify that our method can fully
utilize the RGB-IR complementary information and achieve robust detection
results. The code is available at
https://github.com/yuanmaoxun/Calibrated-and-Complementary-Transformer-for-RGB-Infrared-Object-Detec tion.git.
- Abstract(参考訳): 可視(rgb)および赤外線(ir)画像上の物体検出は、時間前後のアプリケーションのロバストな検出を容易にする新たなソリューションとして、近年広く注目を集めている。
赤外線画像の助けを借りて、オブジェクト検出器はRGB-IR複合情報を使用することにより、実用上より信頼性が高く、堅牢である。
しかし、既存の手法は相反性ミスカバリレーションや核融合インプレシジョンの問題に苦しんでいる。
本稿では,異なる特徴間のペア関係をモデル化する強力な能力を有するため,これら2つの問題に同時に対処するために,$\mathrm{C}^2$Former という新しいキャリブレーション・補完変換器を提案する。
rgb と ir モダリティの相互接続関係を学習し,そのキャリブレーションと相補的特徴を得るために,$\mathrm{c}^2$former で相互接続(inter-modality cross-attention,ica)モジュールを設計する。
ICAにおけるグローバルアテンションの計算による計算コストを低減するため、特徴写像の次元を小さくするために、適応特徴サンプリング(AFS)モジュールが導入された。
$\mathrm{C}^2$Formerは機能ドメインで機能するため、バックボーンネットワークを介して既存のRGB-IRオブジェクト検出器に組み込むことができる。
したがって,1つの単段と2つの2段階の物体検出器に,我々の$\mathrm{C}^2$Formerを組み込んで,その有効性と汎用性を評価する。
本研究では,DroneVehicle と KAIST RGB-IR データセットの広範な実験により,RGB-IR 補完情報を完全に活用し,ロバストな検出結果が得られることを確認した。
コードはhttps://github.com/yuanmaoxun/Calibrated-and-Complementary-Transformer-for-RGB-Infrared-Object-Detec tion.gitで公開されている。
関連論文リスト
- The Solution for the GAIIC2024 RGB-TIR object detection Challenge [5.625794757504552]
RGB-TIRオブジェクト検出は、RGBとTIRの両方の画像を、検出中に補完情報として利用する。
提案手法はAとBのベンチマークでそれぞれ0.516と0.543のmAPスコアを得た。
論文 参考訳(メタデータ) (2024-07-04T12:08:36Z) - Removal then Selection: A Coarse-to-Fine Fusion Perspective for RGB-Infrared Object Detection [20.12812979315803]
可視光(RGB)と熱赤外(IR)画像の両方を利用した物体検出が注目されている。
既存の多くのマルチモーダルオブジェクト検出手法は、RGBとIR画像をディープニューラルネットワークに直接入力する。
両モダリティから特徴を浄化・融合する新しい粗大な視点を提案する。
論文 参考訳(メタデータ) (2024-01-19T14:49:42Z) - RXFOOD: Plug-in RGB-X Fusion for Object of Interest Detection [22.53413063906737]
2分岐のRGB-Xディープニューラルネットワークにおいて重要な部分は、モーダル間で情報を融合する方法である。
同じモード分岐と異なるモード分岐の異なるスケールにおける特徴の融合のためのRXFOODを提案する。
RGB-NIRサリエント物体検出,RGB-Dサリエント物体検出,RGBFrequency Image Operation Detectionの実験結果から,提案したRXFOODの有効性が確認された。
論文 参考訳(メタデータ) (2023-06-22T01:27:00Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Translation, Scale and Rotation: Cross-Modal Alignment Meets
RGB-Infrared Vehicle Detection [10.460296317901662]
空中RGB-IR画像における検出は, クロスモーダルな不整合問題に悩まされている。
本稿では,TSRA (Translation-Scale-Rotation Alignment) モジュールを提案する。
TSRAモジュールに基づく2ストリーム特徴アライメント検出器(TSFADet)は、空中画像におけるRGB-IRオブジェクト検出のために構築されている。
論文 参考訳(メタデータ) (2022-09-28T03:06:18Z) - Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-07T20:26:09Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。