論文の概要: Translation, Scale and Rotation: Cross-Modal Alignment Meets
RGB-Infrared Vehicle Detection
- arxiv url: http://arxiv.org/abs/2209.13801v1
- Date: Wed, 28 Sep 2022 03:06:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 17:04:09.984226
- Title: Translation, Scale and Rotation: Cross-Modal Alignment Meets
RGB-Infrared Vehicle Detection
- Title(参考訳): 翻訳, スケール, 回転: rgb-infrared vehicle detectionによるクロスモーダルアライメント
- Authors: Maoxun Yuan, Yinyan Wang, Xingxing Wei
- Abstract要約: 空中RGB-IR画像における検出は, クロスモーダルな不整合問題に悩まされている。
本稿では,TSRA (Translation-Scale-Rotation Alignment) モジュールを提案する。
TSRAモジュールに基づく2ストリーム特徴アライメント検出器(TSFADet)は、空中画像におけるRGB-IRオブジェクト検出のために構築されている。
- 参考スコア(独自算出の注目度): 10.460296317901662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating multispectral data in object detection, especially visible and
infrared images, has received great attention in recent years. Since visible
(RGB) and infrared (IR) images can provide complementary information to handle
light variations, the paired images are used in many fields, such as
multispectral pedestrian detection, RGB-IR crowd counting and RGB-IR salient
object detection. Compared with natural RGB-IR images, we find detection in
aerial RGB-IR images suffers from cross-modal weakly misalignment problems,
which are manifested in the position, size and angle deviations of the same
object. In this paper, we mainly address the challenge of cross-modal weakly
misalignment in aerial RGB-IR images. Specifically, we firstly explain and
analyze the cause of the weakly misalignment problem. Then, we propose a
Translation-Scale-Rotation Alignment (TSRA) module to address the problem by
calibrating the feature maps from these two modalities. The module predicts the
deviation between two modality objects through an alignment process and
utilizes Modality-Selection (MS) strategy to improve the performance of
alignment. Finally, a two-stream feature alignment detector (TSFADet) based on
the TSRA module is constructed for RGB-IR object detection in aerial images.
With comprehensive experiments on the public DroneVehicle datasets, we verify
that our method reduces the effect of the cross-modal misalignment and achieve
robust detection results.
- Abstract(参考訳): 近年,物体検出,特に可視・赤外線画像におけるマルチスペクトルデータの統合が注目されている。
可視(RGB)および赤外線(IR)画像は、光の変動を処理するための補完的な情報を提供することができるため、このペア画像は、多スペクトル歩行者検出、RGB-IR群衆カウント、RGB-IRサルエント物体検出など、多くの分野で使用される。
自然のRGB-IR画像と比較すると, 空中RGB-IR画像では, 物体の位置, 大きさ, 角度の偏差に現れる, 横方向の不一致問題に悩まされている。
本稿では,主に空中RGB-IR画像におけるクロスモーダルな微調整の課題に対処する。
具体的には、まず、弱い不一致の原因を説明し分析する。
次に,これら2つのモダリティから特徴写像を校正することにより,この問題に対処するためのtsraモジュールを提案する。
このモジュールはアライメントプロセスを通じて2つのモダリティオブジェクト間のずれを予測し、アライメント性能を向上させるためにモダリティ選択(MS)戦略を利用する。
最後に、TSRAモジュールに基づく2ストリーム特徴アライメント検出器(TSFADet)を構築し、空中画像におけるRGB-IR物体検出を行う。
一般のドローン車両データセットに関する包括的な実験により,提案手法がクロスモーダル不一致の影響を低減し,ロバストな検出結果が得られることを検証した。
関連論文リスト
- The Solution for the GAIIC2024 RGB-TIR object detection Challenge [5.625794757504552]
RGB-TIRオブジェクト検出は、RGBとTIRの両方の画像を、検出中に補完情報として利用する。
提案手法はAとBのベンチマークでそれぞれ0.516と0.543のmAPスコアを得た。
論文 参考訳(メタデータ) (2024-07-04T12:08:36Z) - Removal then Selection: A Coarse-to-Fine Fusion Perspective for RGB-Infrared Object Detection [20.12812979315803]
可視光(RGB)と熱赤外(IR)画像の両方を利用した物体検出が注目されている。
既存の多くのマルチモーダルオブジェクト検出手法は、RGBとIR画像をディープニューラルネットワークに直接入力する。
両モダリティから特徴を浄化・融合する新しい粗大な視点を提案する。
論文 参考訳(メタデータ) (2024-01-19T14:49:42Z) - $\mathbf{C}^2$Former: Calibrated and Complementary Transformer for
RGB-Infrared Object Detection [18.27510863075184]
本稿では,モダリティの誤校正や不正確な問題に対処するため,$mathrmC2$Formerと呼ばれる新しい校正・補足変換器を提案する。
mathrmC2$Formerは機能ドメインで機能するため、バックボーンネットワークを介して既存のRGB-IRオブジェクト検出器に組み込むことができる。
論文 参考訳(メタデータ) (2023-06-28T12:52:48Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-07T20:26:09Z) - Multi-Scale Iterative Refinement Network for RGB-D Salient Object
Detection [7.062058947498447]
RGB画像の様々なスケールや解像度に、様々な特徴レベルの意味的ギャップがあるため、健全な視覚的手がかりが現れる。
同様のサージェントパターンは、クロスモーダルなディープイメージとマルチスケールバージョンで利用できる。
注意に基づく融合モジュール (ABF) を設計し, 相互相関に対処する。
論文 参考訳(メタデータ) (2022-01-24T10:33:00Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Cross-Modal Weighting Network for RGB-D Salient Object Detection [76.0965123893641]
我々は,RGB-D SODの深度チャネルとRGB-D SODの包括的相互作用を促進するために,新しいクロスモーダルウェイトリング(CMW)戦略を提案する。
具体的には、CMW-L、CMW-M、CMW-Hという3つのRGB-depth相互作用モジュールが、それぞれ低レベル、中級、高レベルのクロスモーダル情報融合を扱うように開発されている。
CMWNetは、7つの人気のあるベンチマークで15の最先端のRGB-D SODメソッドを上回っている。
論文 参考訳(メタデータ) (2020-07-09T16:01:44Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。