論文の概要: CtrlFuse: Mask-Prompt Guided Controllable Infrared and Visible Image Fusion
- arxiv url: http://arxiv.org/abs/2601.08619v1
- Date: Mon, 12 Jan 2026 13:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.24547
- Title: CtrlFuse: Mask-Prompt Guided Controllable Infrared and Visible Image Fusion
- Title(参考訳): CtrlFuse:Mask-Promptガイドによる赤外線と可視画像の融合
- Authors: Yiming Sun, Yuan Ruan, Qinghua Hu, Pengfei Zhu,
- Abstract要約: 赤外線と可視画像の融合は、相補的なモダリティを組み合わせることで、全天候の知覚可能な画像を生成する。
我々は,マスクプロンプトによって誘導されるインタラクティブな動的融合を可能にする,制御可能な画像融合フレームワークであるCtrlFuseを提案する。
実験では、融合制御性とセグメンテーション精度の両立を実証し、適応されたタスク分岐は元のセグメンテーションモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 51.060328159429154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared and visible image fusion generates all-weather perception-capable images by combining complementary modalities, enhancing environmental awareness for intelligent unmanned systems. Existing methods either focus on pixel-level fusion while overlooking downstream task adaptability or implicitly learn rigid semantics through cascaded detection/segmentation models, unable to interactively address diverse semantic target perception needs. We propose CtrlFuse, a controllable image fusion framework that enables interactive dynamic fusion guided by mask prompts. The model integrates a multi-modal feature extractor, a reference prompt encoder (RPE), and a prompt-semantic fusion module (PSFM). The RPE dynamically encodes task-specific semantic prompts by fine-tuning pre-trained segmentation models with input mask guidance, while the PSFM explicitly injects these semantics into fusion features. Through synergistic optimization of parallel segmentation and fusion branches, our method achieves mutual enhancement between task performance and fusion quality. Experiments demonstrate state-of-the-art results in both fusion controllability and segmentation accuracy, with the adapted task branch even outperforming the original segmentation model.
- Abstract(参考訳): 赤外および可視画像融合は、補完的なモダリティを組み合わせて、知的無人システムに対する環境意識を高めることで、全天候で認識可能な画像を生成する。
既存の方法では、下流のタスク適応性を見下ろしながらピクセルレベルの融合に焦点を当てたり、ケースケード検出/分離モデルを通じて厳密なセマンティクスを暗黙的に学習する。
我々は,マスクプロンプトによって誘導されるインタラクティブな動的融合を可能にする,制御可能な画像融合フレームワークであるCtrlFuseを提案する。
モデルはマルチモーダル特徴抽出器、参照プロンプトエンコーダ(RPE)、およびプロンプト-セマンティック融合モジュール(PSFM)を統合する。
RPEは、入力マスク誘導による訓練済みセグメンテーションモデルを微調整することで、タスク固有のセグメンテーションプロンプトを動的にエンコードし、PSFMはこれらのセグメンテーションを融合機能に明示的に注入する。
並列セグメンテーションと融合分岐の相乗的最適化により,タスク性能と融合品質の相互向上を実現する。
実験では、融合制御性とセグメンテーション精度の両立を実証し、適応されたタスクブランチは元のセグメンテーションモデルよりも優れていた。
関連論文リスト
- Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文 参考訳(メタデータ) (2025-12-08T05:04:54Z) - FusionFM: All-in-One Multi-Modal Image Fusion with Flow Matching [42.22268167379098]
我々は、画像融合をソースモーダルから融合画像分布への直接確率的輸送として定式化する。
タスク毎に最も信頼性の高い擬似ラベルを選択するためにタスク認識選択関数を用いる。
マルチタスクシナリオでは、弾力的な重み強化と経験的再生機構を統合し、クロスタスク性能を維持する。
論文 参考訳(メタデータ) (2025-11-17T02:56:48Z) - MAFS: Masked Autoencoder for Infrared-Visible Image Fusion and Semantic Segmentation [43.62940654606311]
画像融合とセマンティックセグメンテーションのための統合ネットワークを提案する。
画像融合のセマンティック・アウェア機能を高めるための異種機能融合戦略を考案する。
フレームワーク内では,マルチステージトランスフォーマーデコーダを設計し,より微細なマルチスケールフューズされた特徴を効率的に集約する。
論文 参考訳(メタデータ) (2025-09-15T11:55:55Z) - SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion [65.80051636480836]
本稿では,Segment Anything Model(SAM)によって導かれる条件拡散モデルを提案する。
このフレームワークは2段階のプロセスで動作し、まずマルチモーダルな特徴の予備的な融合を行い、その後、拡散モデルの粗大な分極生成を駆動する条件としてセマンティックマスクを利用する。
SGDFuseは主観的評価と客観的評価の両方において最先端の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-08-07T10:58:52Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。