論文の概要: CrossFuse: Learning Infrared and Visible Image Fusion by Cross-Sensor Top-K Vision Alignment and Beyond
- arxiv url: http://arxiv.org/abs/2502.14493v1
- Date: Thu, 20 Feb 2025 12:19:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:52.551920
- Title: CrossFuse: Learning Infrared and Visible Image Fusion by Cross-Sensor Top-K Vision Alignment and Beyond
- Title(参考訳): CrossFuse: クロスセンサートップKビジョンアライメントによる赤外線と可視画像の融合学習
- Authors: Yukai Shi, Cidan Shi, Zhipeng Weng, Yin Tian, Xiaoyu Xian, Liang Lin,
- Abstract要約: 赤外線および可視画像融合(IVIF)は、ビデオ監視や自律運転システムといった重要な分野にますます応用されている。
マルチビュー拡張に基づく赤外線可視融合フレームワークを提案する。
本手法は, 実用化におけるIVIFタスクの信頼性と安定性を著しく向上させる。
- 参考スコア(独自算出の注目度): 45.996901339560566
- License:
- Abstract: Infrared and visible image fusion (IVIF) is increasingly applied in critical fields such as video surveillance and autonomous driving systems. Significant progress has been made in deep learning-based fusion methods. However, these models frequently encounter out-of-distribution (OOD) scenes in real-world applications, which severely impact their performance and reliability. Therefore, addressing the challenge of OOD data is crucial for the safe deployment of these models in open-world environments. Unlike existing research, our focus is on the challenges posed by OOD data in real-world applications and on enhancing the robustness and generalization of models. In this paper, we propose an infrared-visible fusion framework based on Multi-View Augmentation. For external data augmentation, Top-k Selective Vision Alignment is employed to mitigate distribution shifts between datasets by performing RGB-wise transformations on visible images. This strategy effectively introduces augmented samples, enhancing the adaptability of the model to complex real-world scenarios. Additionally, for internal data augmentation, self-supervised learning is established using Weak-Aggressive Augmentation. This enables the model to learn more robust and general feature representations during the fusion process, thereby improving robustness and generalization. Extensive experiments demonstrate that the proposed method exhibits superior performance and robustness across various conditions and environments. Our approach significantly enhances the reliability and stability of IVIF tasks in practical applications.
- Abstract(参考訳): 赤外線および可視画像融合(IVIF)は、ビデオ監視や自律運転システムといった重要な分野にますます応用されている。
深層学習に基づく融合法で顕著な進歩が見られた。
しかしながら、これらのモデルは現実世界のアプリケーションにおいて、アウト・オブ・ディストリビューション(OOD)のシーンに頻繁に遭遇し、そのパフォーマンスと信頼性に大きな影響を与えます。
したがって、OODデータの課題に対処することは、これらのモデルをオープンな環境に安全に配置するために不可欠である。
既存の研究とは異なり、現実世界のアプリケーションにおけるOODデータによる課題と、モデルの堅牢性と一般化の強化に焦点が当てられている。
本稿では,マルチビュー拡張に基づく赤外線可視融合フレームワークを提案する。
外部データ拡張では、Top-k Selective Vision Alignmentを使用して、データセット間の分散シフトを緩和し、可視画像上でRGBワイド変換を実行する。
この戦略は、拡張サンプルを効果的に導入し、複雑な実世界のシナリオへのモデルの適応性を高める。
さらに、内部データ拡張には、Wak-Aggressive Augmentationを用いて自己教師付き学習が確立される。
これにより、融合プロセス中により堅牢で一般的な特徴表現を学習し、堅牢性と一般化を改善することができる。
実験の結果,提案手法は様々な条件や環境において優れた性能とロバスト性を示すことがわかった。
本手法は, 実用化におけるIVIFタスクの信頼性と安定性を著しく向上させる。
関連論文リスト
- WTCL-Dehaze: Rethinking Real-world Image Dehazing via Wavelet Transform and Contrastive Learning [17.129068060454255]
自律運転や監視といったアプリケーションには、単一イメージのデハジングが不可欠だ。
コントラスト損失と離散ウェーブレット変換を統合した半教師付きデハージングネットワークを提案する。
提案アルゴリズムは,最先端の単一画像復調法と比較して,優れた性能とロバスト性を実現している。
論文 参考訳(メタデータ) (2024-10-07T05:36:11Z) - Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations [1.5723316845301678]
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。
機械学習モデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。
実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
論文 参考訳(メタデータ) (2024-08-30T14:15:48Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Online,Target-Free LiDAR-Camera Extrinsic Calibration via Cross-Modal Mask Matching [16.13886663417327]
我々はMIAS-LCECと呼ばれる新しいフレームワークを導入し、オープンソースの多目的キャリブレーションツールボックスを提供し、3つの実世界のデータセットをパブリッシュする。
我々のフレームワークとツールボックスの基盤は、最先端(SoTA)のLVMに基づいて開発されたクロスモーダルマスクマッチング(C3M)アルゴリズムである。
論文 参考訳(メタデータ) (2024-04-28T06:25:56Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System [7.1083241462091165]
我々は,光学的文字認識(OCR)を基本とする外部モダリティ誘導データマイニングフレームワークを導入し,画像から統計的特徴を抽出する。
提案手法の重要な側面は、単一のモーダル認識モデルを用いて抽出された外部モーダル特徴のアライメントであり、畳み込みニューラルネットワークによって符号化された画像特徴である。
本手法は欠陥検出モデルのリコール率を大幅に向上させ,挑戦シナリオにおいても高い堅牢性を維持する。
論文 参考訳(メタデータ) (2024-03-18T07:41:39Z) - Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.48494594909123]
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-18T15:56:23Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Does Thermal data make the detection systems more reliable? [1.2891210250935146]
マルチモーダル協調フレームワークに基づく包括的検知システムを提案する。
このフレームワークは、RGB(ビジュアルカメラから)と熱(赤外線カメラから)の両方のデータから学習する。
実験の結果,精度の向上は名目上はいるものの,難易度と難易度は高いことがわかった。
論文 参考訳(メタデータ) (2021-11-09T15:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。