論文の概要: Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared
- arxiv url: http://arxiv.org/abs/2603.08018v1
- Date: Mon, 09 Mar 2026 06:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.609729
- Title: Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared
- Title(参考訳): 欠損なし:失明した赤外線下での辞書ガイドによるクロスモーダル画像融合
- Authors: Yafei Zhang, Meng Ma, Huafeng Li, Yu Liu,
- Abstract要約: 赤外線可視(IR-VIS)画像融合は、知覚とセキュリティにとって不可欠である。
ほとんどのメソッドは、トレーニングと推論の間、両方のモダリティの可用性に依存します。
本稿では,共用畳み込み辞書上に構築された辞書誘導係数ドメインフレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.409013719518512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared-visible (IR-VIS) image fusion is vital for perception and security, yet most methods rely on the availability of both modalities during training and inference. When the infrared modality is absent, pixel-space generative substitutes become hard to control and inherently lack interpretability. We address missing-IR fusion by proposing a dictionary-guided, coefficient-domain framework built upon a shared convolutional dictionary. The pipeline comprises three key components: (1) Joint Shared-dictionary Representation Learning (JSRL) learns a unified and interpretable atom space shared by both IR and VIS modalities; (2) VIS-Guided IR Inference (VGII) transfers VIS coefficients to pseudo-IR coefficients in the coefficient domain and performs a one-step closed-loop refinement guided by a frozen large language model as a weak semantic prior; and (3) Adaptive Fusion via Representation Inference (AFRI) merges VIS structures and inferred IR cues at the atom level through window attention and convolutional mixing, followed by reconstruction with the shared dictionary. This encode-transfer-fuse-reconstruct pipeline avoids uncontrolled pixel-space generation while ensuring prior preservation within interpretable dictionary-coefficient representation. Experiments under missing-IR settings demonstrate consistent improvements in perceptual quality and downstream detection performance. To our knowledge, this represents the first framework that jointly learns a shared dictionary and performs coefficient-domain inference-fusion to tackle missing-IR fusion. The source code is publicly available at https://github.com/harukiv/DCMIF.
- Abstract(参考訳): 赤外線可視(IR-VIS)画像融合は知覚とセキュリティに不可欠であるが、ほとんどの手法はトレーニングと推論において両モードの可用性に依存している。
赤外線モダリティが欠如している場合、画素空間生成置換体は制御が困難になり、本質的に解釈可能性が欠落する。
我々は,共用畳み込み辞書上に構築された辞書誘導係数ドメインフレームワークを提案することで,欠測赤外線融合に対処する。
パイプラインは,(1)共用共有辞書表現学習(JSRL)は,IRとVISモダリティの両方で共有される統一的かつ解釈可能な原子空間を学習し,(2)VIS誘導IR推論(VGII)は係数領域内の擬似IR係数にVIS係数を転送し,凍結した大言語モデルで案内される1ステップのクローズドループ改良を行う。
このエンコード・トランスファー・フューズ・リコンストラクタパイプラインは、解釈可能な辞書係数表現内での事前保存を確保しつつ、制御されていないピクセル空間の生成を回避する。
欠損IR設定下での実験では、知覚品質と下流検出性能が一貫した改善が示されている。
我々の知る限り、これは共有辞書を共同で学習し、欠落したIR融合に取り組むための係数領域推論融合を実行する最初のフレームワークである。
ソースコードはhttps://github.com/harukiv/DCMIFで公開されている。
関連論文リスト
- Manifold-aware Representation Learning for Degradation-agnostic Image Restoration [135.90908995927194]
画像復元(IR)は、ノイズ、ぼかし、迷路、雨、低照度といった様々な汚職に影響を受ける劣化した入力から高品質な画像を復元することを目的としている。
我々は、入力特徴空間を3つのセマンティックに整列した並列分岐に明示的に分解する1つのIRにおいて、すべてに統一されたフレームワークであるMIRAGEを提案する。
このモジュラ分解は、多種多様な分解の一般化と効率を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-24T12:52:10Z) - Sharing Key Semantics in Transformer Makes Efficient Image Restoration [148.22790334216117]
視覚変換器(ViT)の基盤となる自己注意機構は、すべてのグローバルな手がかりを包含する傾向がある。
劣化した画像の小さな部分、特にセマンティックに密に整合した部分では、回復プロセスを支援するために特に関連する情報を提供する。
本稿では, IR(e, SemanIR) 用の Transformer を通じて鍵セマンティクスを共有することで, IR の性能向上を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:45:34Z) - YYDS: Visible-Infrared Person Re-Identification with Coarse Descriptions [24.226187541428857]
本稿では、赤外線画像と粗い言語記述の両方から、対象の可視画像とをマッチングするRefer-VI-ReID設定を提案する。
この課題に対処するために,YYDSと呼ばれるY-Y形分解構造を設計し,ターゲットのテクスチャや色の特徴を分解・集約する。
k-reciprocal re-level algorithmのクロスモーダルバージョンであるCMKRについて検討し,3つの探索手法と1つの局所クエリ拡張手法について検討した。
論文 参考訳(メタデータ) (2024-03-07T03:26:02Z) - ASCNet: Asymmetric Sampling Correction Network for Infrared Image Destriping [25.816984064145906]
非対称サンプリング補正ネットワーク(ASCNet)と呼ばれる新しい赤外画像デストリップ手法を提案する。
我々のASCNetは、Residual Haar Discrete Wavelet Transform (RHDWT), Pixel Shuffle (PS), Column Non-uniformity Correction Module (CNCM)の3つのコア要素で構成されています。
論文 参考訳(メタデータ) (2024-01-28T06:23:55Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Complementary Random Masking for RGB-Thermal Semantic Segmentation [63.93784265195356]
RGB-熱的セマンティックセグメンテーションは、悪天候や照明条件における信頼性の高いセマンティックセマンティックセマンティック理解を実現するための潜在的ソリューションである。
本稿では,1)RGB-T画像の相補的ランダムマスキング戦略,2)クリーンモードとマスク入力モードの自己蒸留損失を提案する。
3つのRGB-Tセマンティックセマンティックセグメンテーションベンチマークで最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-30T13:57:21Z) - Visible-Infrared Person Re-Identification Using Privileged Intermediate
Information [10.816003787786766]
クロスモーダルな人物再識別(ReID)は、RGBとIRモダリティ間のデータ分散の大きなドメインシフトのために困難である。
本稿では2つのメインドメイン間のブリッジとして機能する中間仮想ドメインを作成するための新しいアプローチを提案する。
我々は、深いReIDモデルをトレーニングするための追加情報を提供する、可視領域と赤外線領域間の画像を生成する新しい手法を考案した。
論文 参考訳(メタデータ) (2022-09-19T21:08:14Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。