論文の概要: CrossFuse: Learning Infrared and Visible Image Fusion by Cross-Sensor Top-K Vision Alignment and Beyond
- arxiv url: http://arxiv.org/abs/2502.14493v1
- Date: Thu, 20 Feb 2025 12:19:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:52.551920
- Title: CrossFuse: Learning Infrared and Visible Image Fusion by Cross-Sensor Top-K Vision Alignment and Beyond
- Title(参考訳): CrossFuse: クロスセンサートップKビジョンアライメントによる赤外線と可視画像の融合学習
- Authors: Yukai Shi, Cidan Shi, Zhipeng Weng, Yin Tian, Xiaoyu Xian, Liang Lin,
- Abstract要約: 赤外線および可視画像融合(IVIF)は、ビデオ監視や自律運転システムといった重要な分野にますます応用されている。
マルチビュー拡張に基づく赤外線可視融合フレームワークを提案する。
本手法は, 実用化におけるIVIFタスクの信頼性と安定性を著しく向上させる。
- 参考スコア(独自算出の注目度): 45.996901339560566
- License:
- Abstract: Infrared and visible image fusion (IVIF) is increasingly applied in critical fields such as video surveillance and autonomous driving systems. Significant progress has been made in deep learning-based fusion methods. However, these models frequently encounter out-of-distribution (OOD) scenes in real-world applications, which severely impact their performance and reliability. Therefore, addressing the challenge of OOD data is crucial for the safe deployment of these models in open-world environments. Unlike existing research, our focus is on the challenges posed by OOD data in real-world applications and on enhancing the robustness and generalization of models. In this paper, we propose an infrared-visible fusion framework based on Multi-View Augmentation. For external data augmentation, Top-k Selective Vision Alignment is employed to mitigate distribution shifts between datasets by performing RGB-wise transformations on visible images. This strategy effectively introduces augmented samples, enhancing the adaptability of the model to complex real-world scenarios. Additionally, for internal data augmentation, self-supervised learning is established using Weak-Aggressive Augmentation. This enables the model to learn more robust and general feature representations during the fusion process, thereby improving robustness and generalization. Extensive experiments demonstrate that the proposed method exhibits superior performance and robustness across various conditions and environments. Our approach significantly enhances the reliability and stability of IVIF tasks in practical applications.
- Abstract(参考訳): 赤外線および可視画像融合(IVIF)は、ビデオ監視や自律運転システムといった重要な分野にますます応用されている。
深層学習に基づく融合法で顕著な進歩が見られた。
しかしながら、これらのモデルは現実世界のアプリケーションにおいて、アウト・オブ・ディストリビューション(OOD)のシーンに頻繁に遭遇し、そのパフォーマンスと信頼性に大きな影響を与えます。
したがって、OODデータの課題に対処することは、これらのモデルをオープンな環境に安全に配置するために不可欠である。
既存の研究とは異なり、現実世界のアプリケーションにおけるOODデータによる課題と、モデルの堅牢性と一般化の強化に焦点が当てられている。
本稿では,マルチビュー拡張に基づく赤外線可視融合フレームワークを提案する。
外部データ拡張では、Top-k Selective Vision Alignmentを使用して、データセット間の分散シフトを緩和し、可視画像上でRGBワイド変換を実行する。
この戦略は、拡張サンプルを効果的に導入し、複雑な実世界のシナリオへのモデルの適応性を高める。
さらに、内部データ拡張には、Wak-Aggressive Augmentationを用いて自己教師付き学習が確立される。
これにより、融合プロセス中により堅牢で一般的な特徴表現を学習し、堅牢性と一般化を改善することができる。
実験の結果,提案手法は様々な条件や環境において優れた性能とロバスト性を示すことがわかった。
本手法は, 実用化におけるIVIFタスクの信頼性と安定性を著しく向上させる。
関連論文リスト
- Infrared and Visible Image Fusion: From Data Compatibility to Task Adaption [65.06388526722186]
赤外線可視画像融合はコンピュータビジョンにおいて重要な課題である。
この急成長する領域に対処する、最近の包括的な調査が欠如している。
本稿では,共通学習に基づくIVIF手法の解明のための多次元フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-18T13:17:34Z) - Hierarchical Information Flow for Generalized Efficient Image Restoration [108.83750852785582]
画像復元のための階層型情報フロー機構であるHi-IRを提案する。
Hi-IRは、劣化した画像を表す階層的な情報ツリーを3段階にわたって構築する。
7つの共通画像復元タスクにおいて、Hi-IRはその有効性と一般化性を達成する。
論文 参考訳(メタデータ) (2024-11-27T18:30:08Z) - WTCL-Dehaze: Rethinking Real-world Image Dehazing via Wavelet Transform and Contrastive Learning [17.129068060454255]
自律運転や監視といったアプリケーションには、単一イメージのデハジングが不可欠だ。
コントラスト損失と離散ウェーブレット変換を統合した半教師付きデハージングネットワークを提案する。
提案アルゴリズムは,最先端の単一画像復調法と比較して,優れた性能とロバスト性を実現している。
論文 参考訳(メタデータ) (2024-10-07T05:36:11Z) - DAE-Fuse: An Adaptive Discriminative Autoencoder for Multi-Modality Image Fusion [10.713089596405053]
DAE-Fuseは,鮮明で自然な融合画像を生成する2相識別型自動エンコーダフレームワークである。
静止画像からビデオ領域への画像融合技術の拡張を開拓した。
DaE-Fuseは、複数のベンチマークで最先端のパフォーマンスを実現し、医用画像融合のようなタスクに優れた一般化性を持つ。
論文 参考訳(メタデータ) (2024-09-16T08:37:09Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Online,Target-Free LiDAR-Camera Extrinsic Calibration via Cross-Modal Mask Matching [16.13886663417327]
我々はMIAS-LCECと呼ばれる新しいフレームワークを導入し、オープンソースの多目的キャリブレーションツールボックスを提供し、3つの実世界のデータセットをパブリッシュする。
我々のフレームワークとツールボックスの基盤は、最先端(SoTA)のLVMに基づいて開発されたクロスモーダルマスクマッチング(C3M)アルゴリズムである。
論文 参考訳(メタデータ) (2024-04-28T06:25:56Z) - OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System [7.1083241462091165]
我々は,光学的文字認識(OCR)を基本とする外部モダリティ誘導データマイニングフレームワークを導入し,画像から統計的特徴を抽出する。
提案手法の重要な側面は、単一のモーダル認識モデルを用いて抽出された外部モーダル特徴のアライメントであり、畳み込みニューラルネットワークによって符号化された画像特徴である。
本手法は欠陥検出モデルのリコール率を大幅に向上させ,挑戦シナリオにおいても高い堅牢性を維持する。
論文 参考訳(メタデータ) (2024-03-18T07:41:39Z) - Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.48494594909123]
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-18T15:56:23Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - Does Thermal data make the detection systems more reliable? [1.2891210250935146]
マルチモーダル協調フレームワークに基づく包括的検知システムを提案する。
このフレームワークは、RGB(ビジュアルカメラから)と熱(赤外線カメラから)の両方のデータから学習する。
実験の結果,精度の向上は名目上はいるものの,難易度と難易度は高いことがわかった。
論文 参考訳(メタデータ) (2021-11-09T15:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。