論文の概要: Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach
- arxiv url: http://arxiv.org/abs/2512.07170v1
- Date: Mon, 08 Dec 2025 05:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.713314
- Title: Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach
- Title(参考訳): 統合意味・制御可能な画像融合に向けて:拡散変圧器アプローチ
- Authors: Jiayang Li, Chengjie Jiang, Junjun Jiang, Pengwei Liang, Jiayi Ma, Liqiang Nie,
- Abstract要約: DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
- 参考スコア(独自算出の注目度): 99.80480649258557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image fusion aims to blend complementary information from multiple sensing modalities, yet existing approaches remain limited in robustness, adaptability, and controllability. Most current fusion networks are tailored to specific tasks and lack the ability to flexibly incorporate user intent, especially in complex scenarios involving low-light degradation, color shifts, or exposure imbalance. Moreover, the absence of ground-truth fused images and the small scale of existing datasets make it difficult to train an end-to-end model that simultaneously understands high-level semantics and performs fine-grained multimodal alignment. We therefore present DiTFuse, instruction-driven Diffusion-Transformer (DiT) framework that performs end-to-end, semantics-aware fusion within a single model. By jointly encoding two images and natural-language instructions in a shared latent space, DiTFuse enables hierarchical and fine-grained control over fusion dynamics, overcoming the limitations of pre-fusion and post-fusion pipelines that struggle to inject high-level semantics. The training phase employs a multi-degradation masked-image modeling strategy, so the network jointly learns cross-modal alignment, modality-invariant restoration, and task-aware feature selection without relying on ground truth images. A curated, multi-granularity instruction dataset further equips the model with interactive fusion capabilities. DiTFuse unifies infrared-visible, multi-focus, and multi-exposure fusion-as well as text-controlled refinement and downstream tasks-within a single architecture. Experiments on public IVIF, MFF, and MEF benchmarks confirm superior quantitative and qualitative performance, sharper textures, and better semantic retention. The model also supports multi-level user control and zero-shot generalization to other multi-image fusion scenarios, including instruction-conditioned segmentation.
- Abstract(参考訳): 画像融合は、複数のセンシングモードからの相補的な情報を融合することを目的としているが、既存のアプローチは堅牢性、適応性、制御性に制限されている。
現在の核融合ネットワークは特定のタスクに合わせて調整されており、特に低照度劣化、色の変化、露光の不均衡といった複雑なシナリオにおいて、ユーザーの意図を柔軟に組み込む能力がない。
さらに, 地中融解画像の欠如と, 既存データセットの小規模化により, 高レベルのセマンティクスを同時に理解し, きめ細かなマルチモーダルアライメントを行うエンド・ツー・エンドモデルの訓練が困難になる。
そこで我々は,命令駆動型Diffusion-Transformer (DiT) フレームワークである DiTFuse を提案する。
2つの画像と自然言語命令を共有潜在空間に共同で符号化することにより、DiTFuseは融合ダイナミクスの階層的かつきめ細かな制御を可能にし、高レベルの意味論を注入するのに苦労する事前融合と後融合パイプラインの限界を克服する。
トレーニングフェーズでは,マルチ・デグレーション・マスク・イメージ・モデリング・ストラテジーが採用されているため,ネットワークは,地平線画像に頼らずに,クロスモーダルアライメント,モダリティ不変の復元,タスク・アウェアの特徴選択を共同で学習する。
キュレートされた多粒度命令データセットは、インタラクティブな融合機能を備えたモデルをさらに装備する。
DiTFuseは、単一のアーキテクチャで、赤外線、マルチフォーカス、マルチ露光融合、テキスト制御された改善および下流タスクを統一する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
このモデルは、命令条件付きセグメンテーションを含む他のマルチイメージ融合シナリオへのマルチレベルユーザ制御とゼロショットの一般化もサポートする。
関連論文リスト
- FusionFM: All-in-One Multi-Modal Image Fusion with Flow Matching [42.22268167379098]
我々は、画像融合をソースモーダルから融合画像分布への直接確率的輸送として定式化する。
タスク毎に最も信頼性の高い擬似ラベルを選択するためにタスク認識選択関数を用いる。
マルチタスクシナリオでは、弾力的な重み強化と経験的再生機構を統合し、クロスタスク性能を維持する。
論文 参考訳(メタデータ) (2025-11-17T02:56:48Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Efficient Rectified Flow for Image Fusion [48.330480065862474]
本稿では,画像融合のための1ステップの効率的な拡散モデルであるRFfusionを提案する。
また,画像融合に適したタスク固有の変分オートエンコーダアーキテクチャを提案する。
提案手法は,推算速度と融合品質の両方の観点から,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-09-20T06:21:00Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - TransFuse: A Unified Transformer-based Image Fusion Framework using
Self-supervised Learning [5.849513679510834]
画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。
2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。
本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T07:30:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。