Fugu-MT 論文翻訳(概要): VIFNet: An End-to-end Visible-Infrared Fusion Network for Image Dehazing

論文の概要: VIFNet: An End-to-end Visible-Infrared Fusion Network for Image Dehazing

arxiv url: http://arxiv.org/abs/2404.07790v1
Date: Thu, 11 Apr 2024 14:31:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-12 13:40:16.775198
Title: VIFNet: An End-to-end Visible-Infrared Fusion Network for Image Dehazing
Title（参考訳）: VIFNet:画像デハージングのためのエンドツーエンド可視赤外融合ネットワーク
Authors: Meng Yu, Te Cui, Haoyang Lu, Yufeng Yue,
Abstract要約: 本研究の目的は、画像デハージングのための可視赤外線融合ネットワークを設計することである。特に,より空間的・限界的な情報を復元するための多スケール深層構造特徴抽出(DSFE)モジュールを提案する。これを検証するために,AirSimシミュレーションプラットフォームに基づくAirSim-VIDと呼ばれる可視赤外マルチモーダルデータセットを構築した。
参考スコア（独自算出の注目度）: 13.777195433138179
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image dehazing poses significant challenges in environmental perception. Recent research mainly focus on deep learning-based methods with single modality, while they may result in severe information loss especially in dense-haze scenarios. The infrared image exhibits robustness to the haze, however, existing methods have primarily treated the infrared modality as auxiliary information, failing to fully explore its rich information in dehazing. To address this challenge, the key insight of this study is to design a visible-infrared fusion network for image dehazing. In particular, we propose a multi-scale Deep Structure Feature Extraction (DSFE) module, which incorporates the Channel-Pixel Attention Block (CPAB) to restore more spatial and marginal information within the deep structural features. Additionally, we introduce an inconsistency weighted fusion strategy to merge the two modalities by leveraging the more reliable information. To validate this, we construct a visible-infrared multimodal dataset called AirSim-VID based on the AirSim simulation platform. Extensive experiments performed on challenging real and simulated image datasets demonstrate that VIFNet can outperform many state-of-the-art competing methods. The code and dataset are available at https://github.com/mengyu212/VIFNet_dehazing.
Abstract（参考訳）: イメージデハジングは環境認識において重要な課題である。近年の研究では, シングルモーダルの深層学習に基づく手法が注目されているが, 特に密集環境のシナリオでは, 深刻な情報損失が生じる可能性がある。赤外画像は、迷路に対して堅牢性を示すが、既存の手法では、主に赤外線モダリティを補助的な情報として扱い、デハジングにおいてその豊富な情報を十分に探索することができない。この課題に対処するために、この研究の重要な洞察は、画像デハージングのための可視赤外線融合ネットワークを設計することである。特に,Channel-Pixel Attention Block (CPAB) を組み込んだマルチスケールのDeep Structure Feature extract (DSFE) モジュールを提案する。さらに、より信頼性の高い情報を活用することにより、2つのモードをマージする不整合重み付き核融合戦略を導入する。これを検証するために,AirSimシミュレーションプラットフォームに基づくAirSim-VIDと呼ばれる可視赤外マルチモーダルデータセットを構築した。実画像とシミュレーション画像のデータセットに挑戦して行われた大規模な実験は、VIFNetが多くの最先端競合手法より優れていることを示した。コードとデータセットはhttps://github.com/mengyu212/VIFNet_dehazing.comで公開されている。

関連論文リスト

Multi-Domain Biometric Recognition using Body Embeddings [51.36007967653781]
身体埋め込みは中波長赤外線(MWIR)領域と長波長赤外線(LWIR)領域の顔埋め込みよりも優れていた。我々は、IJB-MDFデータセット上でのベンチマーク結果を確立するために、ビジョントランスフォーマーアーキテクチャを活用している。また, クロスエントロピーとトリプルト損失の単純な組み合わせで, VISデータにのみ事前訓練された体モデルを微調整することで, 最先端のmAPスコアが得られることを示す。
論文参考訳（メタデータ） (2025-03-13T22:38:18Z)
Language-Depth Navigated Thermal and Visible Image Fusion [11.473316170288166]
既存の熱可視画像融合は、主に検出タスクに焦点を当てており、深さなどの他の重要な情報を無視している。テキスト誘導・深度駆動型赤外線・可視画像融合ネットワークを提案する。これは、自律運転や救助任務のようなアプリケーションにおける正確な認識と効率的な操作をサポートする。
論文参考訳（メタデータ） (2025-03-11T17:55:22Z)
InfMAE: A Foundation Model in the Infrared Modality [38.23685358198649]
本稿では,赤外線モダリティの基礎モデルであるInfMAEを提案する。 Inf30と呼ばれる赤外線データセットをリリースし、自己教師付き学習のための大規模データ不足の問題に対処する。また、赤外線画像に適した情報認識マスキング戦略を設計する。
論文参考訳（メタデータ） (2024-02-01T08:02:10Z)
SSPFusion: A Semantic Structure-Preserving Approach for Infrared and Visible Image Fusion [30.55433673796615]
既存の学習ベースの赤外線および可視画像融合(IVIF)法は、融合画像に大量の冗長情報を示す。本稿では,IVIF における意味的構造保存手法,すなわち SSPFusion を提案する。提案手法は,2組の赤外線画像と可視画像から高品質な融合画像を生成することができ,下流コンピュータビジョンタスクの性能を向上させることができる。
論文参考訳（メタデータ） (2023-09-26T08:13:32Z)
An Interactively Reinforced Paradigm for Joint Infrared-Visible Image Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文参考訳（メタデータ） (2023-05-17T06:48:35Z)
Local Contrast and Global Contextual Information Make Infrared Small Object Salient Again [5.324958606516871]
赤外線小物体検出(ISOS)は、赤外画像中の乱雑な背景から、いくつかのピクセルでしかカバーされていない小さな物体を分割することを目的としている。 1) 十分な強度、形状、テクスチャ情報がない小さなオブジェクト、2) 深層ニューラルネットワークのような検出モデルが、連続的なダウンサンプリングを通じて高レベルのセマンティック特徴とイメージレベルの受容フィールドを得るプロセスにおいて、小さなオブジェクトは、容易に失われる。本稿では,この2つの問題をうまく処理できるUCFNetと呼ばれるISOSの信頼性検出モデルを提案する。いくつかの公開データセットの実験により、我々の手法は現状を大きく上回っていることが示された。
論文参考訳（メタデータ） (2023-01-28T05:18:13Z)
CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion [72.8898811120795]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2022-11-20T12:02:07Z)
Unsupervised Misaligned Infrared and Visible Image Fusion via Cross-Modality Image Generation and Registration [59.02821429555375]
我々は、教師なし不整合赤外線と可視画像融合のための頑健な相互モダリティ生成登録パラダイムを提案する。登録された赤外線画像と可視画像とを融合させるため,IFM (Feature Interaction Fusion Module) を提案する。
論文参考訳（メタデータ） (2022-05-24T07:51:57Z)
Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文参考訳（メタデータ） (2022-03-30T11:44:56Z)
Deep Burst Super-Resolution [165.90445859851448]
バースト超解像タスクのための新しいアーキテクチャを提案する。我々のネットワークは複数のノイズRAW画像を入力として取り出し、出力として分解された超解像RGB画像を生成する。実世界のデータのトレーニングと評価を可能にするため,BurstSRデータセットも導入する。
論文参考訳（メタデータ） (2021-01-26T18:57:21Z)
Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文参考訳（メタデータ） (2020-03-05T05:29:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。