論文の概要: Mitigating the Impact of Prominent Position Shift in Drone-based RGBT Object Detection
- arxiv url: http://arxiv.org/abs/2502.09311v1
- Date: Thu, 13 Feb 2025 13:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:48:17.706771
- Title: Mitigating the Impact of Prominent Position Shift in Drone-based RGBT Object Detection
- Title(参考訳): ドローンによるRGBT物体検出における位置シフトの影響について
- Authors: Yan Zhang, Wen Yang, Chang Xu, Qian Hu, Fang Xu, Gui-Song Xia,
- Abstract要約: ドローンベースのRGBTオブジェクト検出は、多くのアーザクロックアプリケーションにおいて重要な役割を果たす。
現実のドローンで見るRGBTのデータは、目立った位置シフトの問題に悩まされている。
本稿では,新しい平均教師型クロスモダリティボックス補正ヘッドアンサンブルを提案する。
- 参考スコア(独自算出の注目度): 45.366588072844586
- License:
- Abstract: Drone-based RGBT object detection plays a crucial role in many around-the-clock applications. However, real-world drone-viewed RGBT data suffers from the prominent position shift problem, i.e., the position of a tiny object differs greatly in different modalities. For instance, a slight deviation of a tiny object in the thermal modality will induce it to drift from the main body of itself in the RGB modality. Considering RGBT data are usually labeled on one modality (reference), this will cause the unlabeled modality (sensed) to lack accurate supervision signals and prevent the detector from learning a good representation. Moreover, the mismatch of the corresponding feature point between the modalities will make the fused features confusing for the detection head. In this paper, we propose to cast the cross-modality box shift issue as the label noise problem and address it on the fly via a novel Mean Teacher-based Cross-modality Box Correction head ensemble (CBC). In this way, the network can learn more informative representations for both modalities. Furthermore, to alleviate the feature map mismatch problem in RGBT fusion, we devise a Shifted Window-Based Cascaded Alignment (SWCA) module. SWCA mines long-range dependencies between the spatially unaligned features inside shifted windows and cascaded aligns the sensed features with the reference ones. Extensive experiments on two drone-based RGBT object detection datasets demonstrate that the correction results are both visually and quantitatively favorable, thereby improving the detection performance. In particular, our CBC module boosts the precision of the sensed modality ground truth by 25.52 aSim points. Overall, the proposed detector achieves an mAP_50 of 43.55 points on RGBTDronePerson and surpasses a state-of-the-art method by 8.6 mAP50 on a shift subset of DroneVehicle dataset. The code and data will be made publicly available.
- Abstract(参考訳): ドローンベースのRGBTオブジェクト検出は、多くのアーザクロックアプリケーションにおいて重要な役割を果たす。
しかし、実世界のドローンビューされたRGBTデータは、位置シフトの問題、すなわち、小さな物体の位置が、異なるモードで大きく異なるという顕著な問題に悩まされている。
例えば、熱モダリティにおける小さな物体のわずかな偏差は、RGBモダリティにおける本体からのドリフトを誘導する。
RGBTデータは、通常、1つのモダリティ(参照)にラベル付けされているため、ラベル付けされていないモダリティ(センシングされた)は、正確な監視信号が欠如し、検出器が良い表現を学ぶのを防ぐ。
さらに、モダリティ間の対応する特徴点のミスマッチは、検出ヘッドに融合した特徴を混乱させる。
本稿では,ラベルノイズ問題としてクロスモダリティボックスシフト問題をキャストし,新しい平均教師ベースのクロスモダリティボックス補正ヘッドアンサンブル(CBC)を用いて,それを即時に処理することを提案する。
このようにして、ネットワークは両方のモダリティについてより情報的な表現を学ぶことができる。
さらに、RGBT融合における特徴マップミスマッチ問題を軽減するために、シフトウィンドウベースカスケードアライメント(SWCA)モジュールを考案した。
SWCAは、シフトウィンドウ内の空間的に不整合な特徴間の長距離依存関係をマイニングし、カスケードされた特徴を参照した特徴と整合させる。
2つのドローンベースのRGBTオブジェクト検出データセットの大規模な実験により、補正結果が視覚的かつ定量的に好適であることを示し、検出性能が向上した。
特に、CBCモジュールは、知覚されたモダリティ基底の真理の精度を25.52 aSimポイント向上させる。
提案した検出器は,RGBTDronePerson上で43.55点のmAP_50を達成し,DroneVehicleデータセットのシフトサブセット上で8.6mAP50の最先端手法を克服する。
コードとデータは公開されます。
関連論文リスト
- Renormalized Connection for Scale-preferred Object Detection in Satellite Imagery [51.83786195178233]
我々は、効率的な特徴抽出の観点から再正規化群理論を実装するために、知識発見ネットワーク(KDN)を設計する。
KDN上の再正規化接続(RC)は、マルチスケール特徴の「相乗的焦点」を可能にする。
RCはFPNベースの検出器のマルチレベル特徴の分割・対数機構を幅広いスケールで予測されたタスクに拡張する。
論文 参考訳(メタデータ) (2024-09-09T13:56:22Z) - DPDETR: Decoupled Position Detection Transformer for Infrared-Visible Object Detection [42.70285733630796]
赤外可視物体検出は、赤外と可視画像の相補的な情報を活用することにより、堅牢な物体検出を実現することを目的としている。
相補的特徴の融合は困難であり、現在の手法では相補的条件下での両モードの物体の正確な検出はできない。
これらの問題に対処するための分離位置検出変換器を提案する。
DroneVehicleとKAISTデータセットの実験は、他の最先端の方法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-08-12T13:05:43Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Temporal Aggregation for Adaptive RGBT Tracking [14.00078027541162]
本稿では,頑健な外見モデル学習を考慮したRGBTトラッカーを提案する。
空間情報のみを含むオブジェクト追跡タスクを実装している既存のRGBTトラッカーとは異なり、この手法では時間情報も考慮されている。
論文 参考訳(メタデータ) (2022-01-22T02:31:56Z) - Anchor-free Oriented Proposal Generator for Object Detection [59.54125119453818]
オブジェクト指向物体検出はリモートセンシング画像解釈において実用的で困難な課題である。
今日では、指向性検出器は主に水平方向の箱を中間体として使用し、それらから指向性のある箱を導出している。
本稿では,ネットワークアーキテクチャから水平ボックス関連操作を放棄する,AOPG(Anchor-free Oriented Proposal Generator)を提案する。
論文 参考訳(メタデータ) (2021-10-05T10:45:51Z) - BTS-Net: Bi-directional Transfer-and-Selection Network For RGB-D Salient
Object Detection [16.87553302005972]
RGB-Dの高次物体検出から得られた深度マップは、しばしば品質と不正確さに悩まされる。
ほとんどの既存のRGB-D SODモデルは、クロスモーダル相互作用を持たないか、エンコーダの段階で深さからRGBまでの一方向相互作用しか持たない。
BTS-Netと呼ばれる新しい双方向転送および選択ネットワークを提案します。BTS-Netは、符号化中に機能を浄化するために双方向転送および選択モジュールのセットを採用しています。
論文 参考訳(メタデータ) (2021-04-05T05:58:43Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - On the Arbitrary-Oriented Object Detection: Classification based
Approaches Revisited [94.5455251250471]
まず,既存の回帰型回転検出器が抱える境界問題は,角周期性や角秩序によって引き起こされることを示した。
我々は、角予測タスクを回帰問題から分類問題に変換する。
得られた円形分布角分類問題に対して、まず、角度の周期性に対処し、隣り合う角度に対する誤差耐性を高めるために、円スムースラベル法を考案する。
論文 参考訳(メタデータ) (2020-03-12T03:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。