論文の概要: RGB-T Object Detection via Group Shuffled Multi-receptive Attention and Multi-modal Supervision
- arxiv url: http://arxiv.org/abs/2405.18955v1
- Date: Wed, 29 May 2024 10:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 17:39:58.556706
- Title: RGB-T Object Detection via Group Shuffled Multi-receptive Attention and Multi-modal Supervision
- Title(参考訳): グループシャッフル多重受容注意とマルチモーダルスーパービジョンによるRGB-Tオブジェクト検出
- Authors: Jinzhong Wang, Xuetao Tian, Shun Dai, Tao Zhuo, Haorui Zeng, Hongjuan Liu, Jiaqi Liu, Xiuwei Zhang, Yanning Zhang,
- Abstract要約: 可視光(RGB)と熱赤外(T)の両方を利用したマルチスペクトル物体検出は注目されている。
本稿では,マルチスケールRGBと熱的特徴を抽出し,組み合わせるために,非常に単純なグループシャッフル型多受容意識(GSMA)モジュールを提案する。
抽出したマルチモーダル特徴は, マルチレベルパスアグリゲーションネックと直接統合され, 融合効果と効率が著しく向上する。
- 参考スコア(独自算出の注目度): 40.483141519450996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multispectral object detection, utilizing both visible (RGB) and thermal infrared (T) modals, has garnered significant attention for its robust performance across diverse weather and lighting conditions. However, effectively exploiting the complementarity between RGB-T modals while maintaining efficiency remains a critical challenge. In this paper, a very simple Group Shuffled Multi-receptive Attention (GSMA) module is proposed to extract and combine multi-scale RGB and thermal features. Then, the extracted multi-modal features are directly integrated with a multi-level path aggregation neck, which significantly improves the fusion effect and efficiency. Meanwhile, multi-modal object detection often adopts union annotations for both modals. This kind of supervision is not sufficient and unfair, since objects observed in one modal may not be seen in the other modal. To solve this issue, Multi-modal Supervision (MS) is proposed to sufficiently supervise RGB-T object detection. Comprehensive experiments on two challenging benchmarks, KAIST and DroneVehicle, demonstrate the proposed model achieves the state-of-the-art accuracy while maintaining competitive efficiency.
- Abstract(参考訳): 可視光(RGB)と熱赤外(T)モードの両方を利用するマルチスペクトル物体検出は、様々な気象条件と照明条件で頑健な性能に顕著な注目を集めている。
しかし、効率を保ちながらRGB-Tモダル間の相補性を効果的に活用することは重要な課題である。
本稿では,マルチスケールRGBと熱的特徴を抽出し,組み合わせるために,非常に単純なグループシャッフル型多受容意識(GSMA)モジュールを提案する。
そして, 抽出したマルチモーダル特徴を, 多レベルパスアグリゲーションネックと直接統合し, 融合効果と効率を著しく向上させる。
一方、マルチモーダルオブジェクト検出は、両方のモーダルに対してユニオンアノテーションを採用することが多い。
この種の監督は、一方のモードで観察された物体が他方のモードでは見えないため、十分で不公平ではない。
この問題を解決するために、RGB-Tオブジェクト検出を十分に監督するためにマルチモーダル・スーパービジョン(MS)を提案する。
KAISTとDroneVehicleの2つの挑戦的ベンチマークに関する総合的な実験は、提案モデルが競争効率を維持しながら最先端の精度を達成することを実証している。
関連論文リスト
- Removal then Selection: A Coarse-to-Fine Fusion Perspective for RGB-Infrared Object Detection [20.12812979315803]
可視光(RGB)と熱赤外(IR)画像の両方を利用した物体検出が注目されている。
既存の多くのマルチモーダルオブジェクト検出手法は、RGBとIR画像をディープニューラルネットワークに直接入力する。
両モダリティから特徴を浄化・融合する新しい粗大な視点を提案する。
論文 参考訳(メタデータ) (2024-01-19T14:49:42Z) - Cross-Modal Object Tracking via Modality-Aware Fusion Network and A
Large-Scale Dataset [20.729414075628814]
我々は、Modality-Aware Fusion Network (MAFNet) と呼ばれる適応型クロスモーダル物体追跡アルゴリズムを提案する。
MAFNetは、適応重み付け機構を用いて、RGBとNIRの両方からの情報を効率的に統合する。
論文 参考訳(メタデータ) (2023-12-22T05:22:33Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Dynamic Enhancement Network for Partial Multi-modality Person
Re-identification [52.70235136651996]
複数のモーダルの表現能力を維持しつつ、任意のモダリティを欠くことができる新しい動的拡張ネットワーク(DENet)を設計する。
欠落状態は変更可能であるため、動的拡張モジュールを設計し、欠落状態に応じて動的にモダリティ特性を適応的に向上する。
論文 参考訳(メタデータ) (2023-05-25T06:22:01Z) - A Multi-modal Approach to Single-modal Visual Place Classification [2.580765958706854]
RGBと深度(D)を組み合わせたマルチセンサー融合アプローチが近年人気を集めている。
単一モードRGB画像分類タスクを擬似多モードRGB-D分類問題として再構成する。
これら2つのモダリティを適切に処理し、融合し、分類するための、実践的で完全に自己管理されたフレームワークについて説明する。
論文 参考訳(メタデータ) (2023-05-10T14:04:21Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - M2RNet: Multi-modal and Multi-scale Refined Network for RGB-D Salient
Object Detection [1.002712867721496]
RGB-Dに基づく手法は、多モード特徴融合の不整合性とマルチスケール特徴集合の不整合に悩まされることが多い。
マルチモーダル・マルチスケール改良ネットワーク(M2RNet)を提案する。
このネットワークには3つの重要なコンポーネントが紹介されている。
論文 参考訳(メタデータ) (2021-09-16T12:15:40Z) - Multi-interactive Dual-decoder for RGB-thermal Salient Object Detection [37.79290349045164]
RGB-thermal Salient Object Detection (SOD)は、可視画像とそれに対応する熱赤外画像の共通する顕著な領域を分割することを目的としている。
既存の手法では、異なるモダリティの相補性のポテンシャルや、画像内容の多種類の手がかりを十分に探求し、活用することができない。
高精度なRGBT SODのためのマルチタイプインタラクションをマイニングし,モデル化するためのマルチインタラクティブなデュアルデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-05T16:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。