論文の概要: Multi-Grained Text-Guided Image Fusion for Multi-Exposure and Multi-Focus Scenarios
- arxiv url: http://arxiv.org/abs/2512.20556v1
- Date: Tue, 23 Dec 2025 17:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.957222
- Title: Multi-Grained Text-Guided Image Fusion for Multi-Exposure and Multi-Focus Scenarios
- Title(参考訳): マルチ露光・マルチフォーカスシナリオのための多点テキストガイド画像融合
- Authors: Mingwei Tang, Jiahao Nie, Guang Yang, Ziqing Cui, Jie Li,
- Abstract要約: MTIF(Multi-grained Text-Guided Image Fusion)は、3つの重要な設計を持つ新しい融合パラダイムである。
まず、細部、構造的手がかり、意味的内容を別々にキャプチャする、多義的なテキスト記述を導入する。
第2に、視覚的特徴とテキスト的特徴のアライメントを容易にするために、それぞれに監視信号が伴う。
第3に、高密度なセマンティックコンテンツでトレーニングデータを拡張するために、サリエンシ駆動のエンリッチメントモジュールを採用する。
- 参考スコア(独自算出の注目度): 12.461120447513487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image fusion aims to synthesize a single high-quality image from a pair of inputs captured under challenging conditions, such as differing exposure levels or focal depths. A core challenge lies in effectively handling disparities in dynamic range and focus depth between the inputs. With the advent of vision-language models, recent methods incorporate textual descriptions as auxiliary guidance to enhance fusion quality. However, simply incorporating coarse-grained descriptions hampers the understanding of fine-grained details and poses challenges for precise cross-modal alignment. To address these limitations, we propose Multi-grained Text-guided Image Fusion (MTIF), a novel fusion paradigm with three key designs. First, it introduces multi-grained textual descriptions that separately capture fine details, structural cues, and semantic content, guiding image fusion through a hierarchical cross-modal modulation module. Second, it involves supervision signals at each granularity to facilitate alignment between visual and textual features and enhance the utility of auxiliary text. Third, it adopts a saliency-driven enrichment module to augment training data with dense semantic content, further strengthening the cross-modal modulation and alignment. Extensive experiments show that MTIF consistently outperforms previous methods on both multi-exposure and multi-focus image fusion tasks.
- Abstract(参考訳): 画像融合は、露光レベルや焦点深度の違いなど、困難な条件下でキャプチャされた2つの入力から、単一の高品質な画像を合成することを目的としている。
中心となる課題は、動的範囲の格差を効果的に処理し、入力間の深度を集中させることである。
視覚言語モデルの出現に伴い、最近の手法では、融合品質を高めるための補助的なガイダンスとしてテキスト記述が組み込まれている。
しかし、粗い記述を単に組み込むことは、きめ細かい詳細を理解することを妨げ、正確なクロスモーダルアライメントの課題を提起する。
これらの制約に対処するため、3つの重要な設計を持つ新しい融合パラダイムであるMTIF(Multi-fine Text-Guided Image Fusion)を提案する。
まず、細部、構造的手がかり、意味的内容を別々に捉え、階層的なクロスモーダル変調モジュールを通して画像融合を誘導する多粒テキスト記述を導入する。
第二に、視覚的特徴とテキスト的特徴のアライメントを促進し、補助的なテキストの有用性を高めるために、各粒度の監視信号が伴う。
第3に、高密度なセマンティックコンテンツでトレーニングデータを拡張するために、サリエンシ駆動のエンリッチメントモジュールを採用し、クロスモーダル変調とアライメントを強化する。
MTIFは、マルチ露光およびマルチフォーカス画像融合タスクにおいて、従来手法よりも一貫して優れていた。
関連論文リスト
- Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文 参考訳(メタデータ) (2025-12-08T05:04:54Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - TeSG: Textual Semantic Guidance for Infrared and Visible Image Fusion [55.34830989105704]
Infrared and visible image fusion (IVF) は、画像モダリティの相補的な情報を組み合わせることを目的としている。
テキスト意味論は,マスクの意味レベルとテキスト意味レベルという2つのレベルで導入する。
画像合成プロセスのガイドとなる赤外線・可視画像融合のためのテクスチュアル・セマンティック・ガイダンスを提案する。
論文 参考訳(メタデータ) (2025-06-20T03:53:07Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。