論文の概要: Infrared and Visible Image Fusion: From Data Compatibility to Task Adaption
- arxiv url: http://arxiv.org/abs/2501.10761v1
- Date: Sat, 18 Jan 2025 13:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:46.705605
- Title: Infrared and Visible Image Fusion: From Data Compatibility to Task Adaption
- Title(参考訳): 赤外・可視画像融合:データ適合性からタスク適応へ
- Authors: Jinyuan Liu, Guanyao Wu, Zhu Liu, Di Wang, Zhiying Jiang, Long Ma, Wei Zhong, Xin Fan, Risheng Liu,
- Abstract要約: 赤外線可視画像融合はコンピュータビジョンにおいて重要な課題である。
この急成長する領域に対処する、最近の包括的な調査が欠如している。
本稿では,共通学習に基づくIVIF手法の解明のための多次元フレームワークを提案する。
- 参考スコア(独自算出の注目度): 65.06388526722186
- License:
- Abstract: Infrared-visible image fusion (IVIF) is a critical task in computer vision, aimed at integrating the unique features of both infrared and visible spectra into a unified representation. Since 2018, the field has entered the deep learning era, with an increasing variety of approaches introducing a range of networks and loss functions to enhance visual performance. However, challenges such as data compatibility, perception accuracy, and efficiency remain. Unfortunately, there is a lack of recent comprehensive surveys that address this rapidly expanding domain. This paper fills that gap by providing a thorough survey covering a broad range of topics. We introduce a multi-dimensional framework to elucidate common learning-based IVIF methods, from visual enhancement strategies to data compatibility and task adaptability. We also present a detailed analysis of these approaches, accompanied by a lookup table clarifying their core ideas. Furthermore, we summarize performance comparisons, both quantitatively and qualitatively, focusing on registration, fusion, and subsequent high-level tasks. Beyond technical analysis, we discuss potential future directions and open issues in this area. For further details, visit our GitHub repository: https://github.com/RollingPlain/IVIF_ZOO.
- Abstract(参考訳): 赤外線可視画像融合(IVIF)はコンピュータビジョンにおいて重要な課題であり、赤外線と可視光の両方の特徴を統一表現に統合することを目的としている。
2018年以降、この分野は深層学習の時代に入ってきており、さまざまなネットワークを導入し、視覚的パフォーマンスを高めるために損失関数を導入している。
しかし、データの互換性、知覚精度、効率といった課題は残っている。
残念ながら、この急速に拡大するドメインに対処する最近の包括的な調査は欠如している。
本稿では,そのギャップを,幅広い話題を網羅した徹底的な調査によって埋める。
本稿では,視覚的拡張戦略からデータ互換性,タスク適応性に至るまで,共通学習に基づくIVIF手法を解明するための多次元フレームワークを提案する。
また、これらのアプローチについて詳細な分析を行い、その中核となる考え方を明確にしたルックアップ表を提示する。
さらに、登録、融合、その後のハイレベルタスクに焦点をあて、定量的かつ質的に性能比較を要約する。
技術的な分析の他に、将来的な方向性や、この分野の課題についても論じる。
詳細については、GitHubリポジトリを参照してください。
関連論文リスト
- Range and Bird's Eye View Fused Cross-Modal Visual Place Recognition [10.086473917830112]
VPR(Image-to-point cloud cross-modal Visual Place Recognition)は、クエリがRGBイメージであり、データベースサンプルがLiDARポイントクラウドである、難しいタスクである。
本稿では,範囲(またはRGB)画像とBird's Eye View(BEV)画像からの情報を効果的に組み合わせた,革新的な初期検索と再ランク手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T12:29:26Z) - Unraveling the Truth: Do VLMs really Understand Charts? A Deep Dive into Consistency and Robustness [47.68358935792437]
チャート質問応答(CQA)は、ビジュアル言語理解の重要な領域である。
この分野の現在のビジュアル言語モデル(VLM)は、まだ未調査のままである。
本稿では,包括的データセット上での最先端VLMの評価を行う。
論文 参考訳(メタデータ) (2024-07-15T20:29:24Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Learning a Graph Neural Network with Cross Modality Interaction for
Image Fusion [23.296468921842948]
近赤外・可視画像融合は、多モードイメージング技術の分野において、徐々に重要なフォークであることが証明されている。
本稿では,IGNetと呼ばれる,核融合のためのクロスモーダル間の対話型グラフニューラルネットワーク(GNN)アーキテクチャを提案する。
我々のIGNetは、平均2.59%のmAP@.5と7.77%のmIoUを検出およびセグメンテーションで、視覚的に魅力的な融合画像を生成することができる。
論文 参考訳(メタデータ) (2023-08-07T02:25:06Z) - An Interactively Reinforced Paradigm for Joint Infrared-Visible Image
Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。
経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。
マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文 参考訳(メタデータ) (2023-05-17T06:48:35Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion [68.78897015832113]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - Learnable Graph Convolutional Network and Feature Fusion for Multi-view
Learning [30.74535386745822]
本稿では,Learningable Graph Convolutional Network and Feature Fusion (LGCN-FF) と呼ばれる統合ディープラーニングフレームワークを提案する。
特徴融合ネットワークと学習可能なグラフ畳み込みネットワークの2つのステージで構成されている。
提案したLGCN-FFは,多視点半教師付き分類において,様々な最先端手法よりも優れていることが検証された。
論文 参考訳(メタデータ) (2022-11-16T19:07:12Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。