論文の概要: Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection
- arxiv url: http://arxiv.org/abs/2203.16220v1
- Date: Wed, 30 Mar 2022 11:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 15:01:37.640352
- Title: Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection
- Title(参考訳): 物体検出用赤外線と可視光を用いたターゲット認識二重対向学習とマルチシナリオマルチモードベンチマーク
- Authors: Jinyuan Liu, Xin Fan, Zhanbo Huang, Guanyao Wu, Risheng Liu, Wei Zhong
and Zhongxuan Luo
- Abstract要約: 本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
- 参考スコア(独自算出の注目度): 65.30079184700755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study addresses the issue of fusing infrared and visible images that
appear differently for object detection. Aiming at generating an image of high
visual quality, previous approaches discover commons underlying the two
modalities and fuse upon the common space either by iterative optimization or
deep networks. These approaches neglect that modality differences implying the
complementary information are extremely important for both fusion and
subsequent detection task. This paper proposes a bilevel optimization
formulation for the joint problem of fusion and detection, and then unrolls to
a target-aware Dual Adversarial Learning (TarDAL) network for fusion and a
commonly used detection network. The fusion network with one generator and dual
discriminators seeks commons while learning from differences, which preserves
structural information of targets from the infrared and textural details from
the visible. Furthermore, we build a synchronized imaging system with
calibrated infrared and optical sensors, and collect currently the most
comprehensive benchmark covering a wide range of scenarios. Extensive
experiments on several public datasets and our benchmark demonstrate that our
method outputs not only visually appealing fusion but also higher detection mAP
than the state-of-the-art approaches.
- Abstract(参考訳): 本研究は、物体検出に異なる外観の赤外線と可視画像の融合の問題に対処する。
視覚的品質の高い画像を生成するために、従来の手法では2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
これらのアプローチは、相補的情報を暗示するモダリティ差が融合とその後の検出タスクの両方にとって極めて重要であることを無視する。
本稿では,核融合と検出の合同問題に対する二段階最適化を定式化し,核融合のためのターゲット・アウェア・デュアル・アドバーサル・ラーニング(tardal)ネットワークと一般的な検出ネットワークに展開する。
1つのジェネレータと2つの識別器との融合ネットワークは、可視から赤外線とテキストの詳細からターゲットの構造情報を保存し、差異から学習しながらコモンズを求める。
さらに,キャリブレーションされた赤外線および光学センサを用いた同期撮像システムを構築し,現在,幅広いシナリオをカバーする最も包括的なベンチマークを収集する。
いくつかの公開データセットに対する大規模な実験とベンチマークにより、我々の手法は融合を視覚的にアピールするだけでなく、最先端のアプローチよりも高い検出mAPを出力することを示した。
関連論文リスト
- DA-HFNet: Progressive Fine-Grained Forgery Image Detection and Localization Based on Dual Attention [12.36906630199689]
DA-HFNet鍛造画像データセットをテキストまたは画像支援GANおよび拡散モデルで作成する。
我々のゴールは、階層的なプログレッシブネットワークを使用して、異なるスケールの偽造物を検出およびローカライゼーションするために捕獲することである。
論文 参考訳(メタデータ) (2024-06-03T16:13:33Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - A Dual Attentive Generative Adversarial Network for Remote Sensing Image
Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。
DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文 参考訳(メタデータ) (2023-10-03T08:26:27Z) - An Interactively Reinforced Paradigm for Joint Infrared-Visible Image
Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。
経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。
マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文 参考訳(メタデータ) (2023-05-17T06:48:35Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature
Ensemble for Multi-modality Image Fusion [72.8898811120795]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。