論文の概要: Dual-Domain Perspective on Degradation-Aware Fusion: A VLM-Guided Robust Infrared and Visible Image Fusion Framework
- arxiv url: http://arxiv.org/abs/2509.05000v1
- Date: Fri, 05 Sep 2025 10:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.569904
- Title: Dual-Domain Perspective on Degradation-Aware Fusion: A VLM-Guided Robust Infrared and Visible Image Fusion Framework
- Title(参考訳): VLM誘導ロバスト赤外・可視画像融合フレームワークにおける劣化認識融合の両面的展望
- Authors: Tianpei Zhang, Jufeng Zhao, Yiming Zhu, Guangmang Cui,
- Abstract要約: GD2Fusionは、分解知覚のための視覚言語モデルと二重領域(周波数/空間)共同最適化を統合する新しいフレームワークである。
既存のアルゴリズムやデュアルソースの劣化シナリオの戦略と比較して、融合性能が優れている。
- 参考スコア(独自算出の注目度): 9.915632806109555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing infrared-visible image fusion (IVIF) methods assume high-quality inputs, and therefore struggle to handle dual-source degraded scenarios, typically requiring manual selection and sequential application of multiple pre-enhancement steps. This decoupled pre-enhancement-to-fusion pipeline inevitably leads to error accumulation and performance degradation. To overcome these limitations, we propose Guided Dual-Domain Fusion (GD^2Fusion), a novel framework that synergistically integrates vision-language models (VLMs) for degradation perception with dual-domain (frequency/spatial) joint optimization. Concretely, the designed Guided Frequency Modality-Specific Extraction (GFMSE) module performs frequency-domain degradation perception and suppression and discriminatively extracts fusion-relevant sub-band features. Meanwhile, the Guided Spatial Modality-Aggregated Fusion (GSMAF) module carries out cross-modal degradation filtering and adaptive multi-source feature aggregation in the spatial domain to enhance modality complementarity and structural consistency. Extensive qualitative and quantitative experiments demonstrate that GD^2Fusion achieves superior fusion performance compared with existing algorithms and strategies in dual-source degraded scenarios. The code will be publicly released after acceptance of this paper.
- Abstract(参考訳): 既存の赤外線可視画像融合法(IVIF)は、高品質な入力を前提としており、通常は手動選択と複数の前処理ステップのシーケンシャルな適用を必要とする、二重ソースの劣化シナリオを扱うのに苦労している。
この分離されたプレエンハンスメント・トゥ・フュージョンパイプラインは、必然的にエラーの蓄積とパフォーマンスの低下につながる。
これらの制約を克服するために、二重領域(周波数/空間)の関節最適化による劣化知覚のための視覚言語モデル(VLM)を相乗的に統合する新しいフレームワークである Guided Dual-Domain Fusion (GD^2Fusion) を提案する。
具体的には、GFMSEモジュールは周波数領域劣化の認識と抑制を行い、融合関連サブバンドの特徴を識別的に抽出する。
一方、GSMAFモジュールは、空間領域におけるクロスモーダル劣化フィルタリングと適応マルチソース特徴集約を実行し、モダリティの相補性と構造的整合性を高める。
大規模定性的および定量的実験により、GD^2Fusionは既存のアルゴリズムや二ソース劣化シナリオの戦略と比較して、優れた融合性能を達成できることを示した。
コードは、この論文を受理した後、公開されます。
関連論文リスト
- Efficient Dual-domain Image Dehazing with Haze Prior Perception [17.18810808188725]
トランスフォーマーベースのモデルは、シングルイメージのデハージングにおいて強力なグローバルモデリング能力を示すが、その高い計算コストはリアルタイム適用性を制限する。
そこで我々はDGFDNet(Dark Channel Guided Frequency-aware Dehazing Network)を提案する。
4つのベンチマークハウズデータセットの実験により、DGFDNetは、より優れた堅牢性とリアルタイム効率で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-07-15T06:56:56Z) - Transformer-Based Dual-Optical Attention Fusion Crowd Head Point Counting and Localization Network [9.214772627896156]
モデルは、赤外線画像から補完情報を導入することにより、デュアル光注意融合モジュール(DAFP)を設計する。
提案手法は,特に高密度低照度シーンにおいて,既存の手法よりも性能が優れている。
論文 参考訳(メタデータ) (2025-05-11T10:55:14Z) - A Fusion-Guided Inception Network for Hyperspectral Image Super-Resolution [4.487807378174191]
我々はFusion-Guided Inception Network (FGIN)と呼ばれる単一画像の超解像モデルを提案する。
具体的には、まずスペクトル空間融合モジュールを用いて、スペクトル情報と空間情報を効果的に統合する。
インセプションのような階層的特徴抽出戦略は、マルチスケール空間依存をキャプチャするために用いられる。
再構成品質をさらに向上するため,バイリニアと奥行き分離可能な畳み込みを組み合わせた最適化されたアップサンプリングモジュールを組み込んだ。
論文 参考訳(メタデータ) (2025-05-06T11:15:59Z) - DSPFusion: Image Fusion via Degradation and Semantic Dual-Prior Guidance [48.84182709640984]
既存の融合法は高品質な画像に向いているが、厳しい状況下で撮影された劣化画像に苦慮している。
この研究は、textbfDegradation と textbfSemantic textbfPrior による劣化画像 textbfFusion (textbfDSPFusion) のための二重誘導フレームワークを提示する。
論文 参考訳(メタデータ) (2025-03-30T08:18:50Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。
モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文 参考訳(メタデータ) (2025-03-17T18:08:03Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。