論文の概要: DEYOLO: Dual-Feature-Enhancement YOLO for Cross-Modality Object Detection
- arxiv url: http://arxiv.org/abs/2412.04931v1
- Date: Fri, 06 Dec 2024 10:39:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:07.496979
- Title: DEYOLO: Dual-Feature-Enhancement YOLO for Cross-Modality Object Detection
- Title(参考訳): DEYOLO: クロスモーダルオブジェクト検出のためのデュアル・フィーチャー・エンハンスメント・ヨロ
- Authors: Yishuo Chen, Boran Wang, Xinyu Guo, Wenbin Zhu, Jiasheng He, Xiaobin Liu, Jing Yuan,
- Abstract要約: 照明の悪い環境での物体検出は、通常RGB画像でははっきりと見えないため、難しい作業である。
本稿では,デュアルエンハンスメントに基づくオブジェクト検出ネットワークDEYOLOを提案する。
提案手法は,SOTAオブジェクト検出アルゴリズムよりも明確なマージンで優れている。
- 参考スコア(独自算出の注目度): 5.946464547429392
- License:
- Abstract: Object detection in poor-illumination environments is a challenging task as objects are usually not clearly visible in RGB images. As infrared images provide additional clear edge information that complements RGB images, fusing RGB and infrared images has potential to enhance the detection ability in poor-illumination environments. However, existing works involving both visible and infrared images only focus on image fusion, instead of object detection. Moreover, they directly fuse the two kinds of image modalities, which ignores the mutual interference between them. To fuse the two modalities to maximize the advantages of cross-modality, we design a dual-enhancement-based cross-modality object detection network DEYOLO, in which semantic-spatial cross modality and novel bi-directional decoupled focus modules are designed to achieve the detection-centered mutual enhancement of RGB-infrared (RGB-IR). Specifically, a dual semantic enhancing channel weight assignment module (DECA) and a dual spatial enhancing pixel weight assignment module (DEPA) are firstly proposed to aggregate cross-modality information in the feature space to improve the feature representation ability, such that feature fusion can aim at the object detection task. Meanwhile, a dual-enhancement mechanism, including enhancements for two-modality fusion and single modality, is designed in both DECAand DEPAto reduce interference between the two kinds of image modalities. Then, a novel bi-directional decoupled focus is developed to enlarge the receptive field of the backbone network in different directions, which improves the representation quality of DEYOLO. Extensive experiments on M3FD and LLVIP show that our approach outperforms SOTA object detection algorithms by a clear margin. Our code is available at https://github.com/chips96/DEYOLO.
- Abstract(参考訳): 照明の悪い環境での物体検出は、通常RGB画像でははっきりと見えないため、難しい作業である。
赤外線画像は、RGB画像を補完する追加の明確なエッジ情報を提供するため、RGBと赤外線画像は、低照度環境における検出能力を高める可能性がある。
しかし、可視画像と赤外線画像の両方を含む既存の研究は、物体検出ではなく画像融合にのみ焦点をあてている。
さらに、両者の相互干渉を無視する2種類の画像モダリティを直接融合させる。
この2つのモダリティを融合させて、相互モダリティの利点を最大化するため、RGB-赤外線(RGB-IR)の検出中心の相互拡張を実現するために、セマンティック空間のクロスモダリティと新規な双方向デカップリング焦点モジュールを設計する、デュアルエンハンスメントベースのクロスモダリティオブジェクト検出ネットワークDEYOLOを設計する。
具体的には,デュアルセマンティックエンハンスメントチャネル重み付けモジュール(DECA)とデュアル空間エンハンスメントピクセル重み付けモジュール(DEPA)をまず提案し,特徴空間におけるクロスモダリティ情報を集約して特徴量表現能力を向上させる。
一方,DCAとDEPAでは,2種類の画像モダリティ間の干渉を低減するために,2モード融合と1つのモダリティの強化を含むデュアルエンハンスメント機構が設計されている。
そして、両方向分離された新たな焦点を開発し、バックボーンネットワークの受容領域を異なる方向に拡大し、DEYOLOの表現品質を向上させる。
M3FD と LLVIP の大規模な実験により,本手法はSOTA オブジェクト検出アルゴリズムよりも明確なマージンで優れていることが示された。
私たちのコードはhttps://github.com/chips96/DEYOLOで公開されています。
関連論文リスト
- Removal then Selection: A Coarse-to-Fine Fusion Perspective for RGB-Infrared Object Detection [20.12812979315803]
可視光(RGB)と熱赤外(IR)画像の両方を利用した物体検出が注目されている。
既存の多くのマルチモーダルオブジェクト検出手法は、RGBとIR画像をディープニューラルネットワークに直接入力する。
両モダリティから特徴を浄化・融合する新しい粗大な視点を提案する。
論文 参考訳(メタデータ) (2024-01-19T14:49:42Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - Translation, Scale and Rotation: Cross-Modal Alignment Meets
RGB-Infrared Vehicle Detection [10.460296317901662]
空中RGB-IR画像における検出は, クロスモーダルな不整合問題に悩まされている。
本稿では,TSRA (Translation-Scale-Rotation Alignment) モジュールを提案する。
TSRAモジュールに基づく2ストリーム特徴アライメント検出器(TSFADet)は、空中画像におけるRGB-IRオブジェクト検出のために構築されている。
論文 参考訳(メタデータ) (2022-09-28T03:06:18Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。