論文の概要: Entity-Guided Multi-Task Learning for Infrared and Visible Image Fusion
- arxiv url: http://arxiv.org/abs/2601.01870v1
- Date: Mon, 05 Jan 2026 08:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.84936
- Title: Entity-Guided Multi-Task Learning for Infrared and Visible Image Fusion
- Title(参考訳): 赤外線・可視画像融合のためのEntity-Guided Multi-Task Learning
- Authors: Wenyu Shao, Hongbo Liu, Yunchuan Ma, Ruili Wang,
- Abstract要約: Infrared and visible image fusion (EGMT) のためのEntity-Guided Multi-Task Learning という新しい融合手法を提案する。
大規模視覚言語モデルにより生成された画像キャプションからエンティティレベルのテキスト情報を抽出する原理的手法を提案する。
並列マルチタスク学習アーキテクチャを構築し、画像融合とマルチラベル分類タスクを統合する。
また、視覚的特徴とエンティティレベルのテキスト的特徴のきめ細かい相互作用を容易にするために、エンティティ誘導型クロスモーダルインタラクティブモジュールも開発されている。
- 参考スコア(独自算出の注目度): 14.3937321254743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing text-driven infrared and visible image fusion approaches often rely on textual information at the sentence level, which can lead to semantic noise from redundant text and fail to fully exploit the deeper semantic value of textual information. To address these issues, we propose a novel fusion approach named Entity-Guided Multi-Task learning for infrared and visible image fusion (EGMT). Our approach includes three key innovative components: (i) A principled method is proposed to extract entity-level textual information from image captions generated by large vision-language models, eliminating semantic noise from raw text while preserving critical semantic information; (ii) A parallel multi-task learning architecture is constructed, which integrates image fusion with a multi-label classification task. By using entities as pseudo-labels, the multi-label classification task provides semantic supervision, enabling the model to achieve a deeper understanding of image content and significantly improving the quality and semantic density of the fused image; (iii) An entity-guided cross-modal interactive module is also developed to facilitate the fine-grained interaction between visual and entity-level textual features, which enhances feature representation by capturing cross-modal dependencies at both inter-visual and visual-entity levels. To promote the wide application of the entity-guided image fusion framework, we release the entity-annotated version of four public datasets (i.e., TNO, RoadScene, M3FD, and MSRS). Extensive experiments demonstrate that EGMT achieves superior performance in preserving salient targets, texture details, and semantic consistency, compared to the state-of-the-art methods. The code and dataset will be publicly available at https://github.com/wyshao-01/EGMT.
- Abstract(参考訳): 既存のテキスト駆動赤外線と可視画像融合アプローチは、しばしば文レベルでのテキスト情報に依存し、冗長テキストからのセマンティックノイズを引き起こし、テキスト情報のより深いセマンティック価値を十分に活用できない。
これらの課題に対処するため,赤外線・可視画像融合(EGMT)のためのEntity-Guided Multi-Task Learning(Entity-Guided Multi-Task Learning)という新しい融合手法を提案する。
私たちのアプローチには3つの重要な革新的要素が含まれています。
一 大きな視覚言語モデルにより生成された画像キャプションからエンティティレベルのテキスト情報を抽出し、重要な意味情報を保存しながら、原文から意味ノイズを除去する方法が提案されている。
(ii)マルチタスク学習アーキテクチャを構築し,画像融合とマルチラベル分類タスクを統合した。
エンティティを擬似ラベルとして使用することにより、マルチラベル分類タスクは、画像内容のより深い理解を実現し、融合した画像の品質と意味密度を大幅に向上させる、セマンティック監視を提供する。
3) 視覚的, 視覚的, 視覚的の両レベルでの相互依存を捉えることで, 視覚的, 実体的テキスト的特徴のきめ細かい相互作用を促進するための対話モジュールも開発されている。
エンティティ誘導画像融合フレームワークの広範な適用を促進するため,4つの公開データセット(TNO, RoadScene, M3FD, MSRS)のエンティティアノテーション版をリリースする。
広範囲な実験により, EGMTは最先端の手法と比較して, 健全な目標, テクスチャの細部, セマンティックな一貫性を保ち, 優れた性能を発揮することが示された。
コードとデータセットはhttps://github.com/wyshao-01/EGMTで公開される。
関連論文リスト
- Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文 参考訳(メタデータ) (2025-12-08T05:04:54Z) - TeSG: Textual Semantic Guidance for Infrared and Visible Image Fusion [55.34830989105704]
Infrared and visible image fusion (IVF) は、画像モダリティの相補的な情報を組み合わせることを目的としている。
テキスト意味論は,マスクの意味レベルとテキスト意味レベルという2つのレベルで導入する。
画像合成プロセスのガイドとなる赤外線・可視画像融合のためのテクスチュアル・セマンティック・ガイダンスを提案する。
論文 参考訳(メタデータ) (2025-06-20T03:53:07Z) - Embedding and Enriching Explicit Semantics for Visible-Infrared Person Re-Identification [31.011118085494942]
Visible-infrared person re-identification (VIReID)は、異なるモードで同じ同一の歩行者画像を取得する。
既存の方法は画像のみから視覚的コンテンツを学習するが、高レベルの意味を感知する能力は欠如している。
本稿では,意味的にリッチな横断歩行者表現を学習するための埋め込み・拡張型明示的意味論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T14:27:30Z) - EntityCLIP: Entity-Centric Image-Text Matching via Multimodal Attentive Contrastive Learning [35.87830182497944]
本稿では,textbfEntity中心の textbfImage-textbfText textbfMatching (EITM) 問題について検討する。
このタスクの課題は、主にエンティティ・アソシエーション・モデリングにおける大きなセマンティック・ギャップにある。
我々は,EITM問題に適応するマルチモーダル注意型コントラスト学習フレームワークを考案し,EntityCLIPというモデルを開発した。
論文 参考訳(メタデータ) (2024-10-23T12:12:56Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Image Fusion via Vision-Language Model [91.36809431547128]
VIsion-Language Model (FILM)による画像融合という新しい融合パラダイムを導入する。
FILMは画像からセマンティックプロンプトを生成し、それらをChatGPTに入力し、包括的なテキスト記述を行う。
これらの記述はテキスト領域内で融合され、視覚情報融合を導く。
FILMは、赤外線可視、医療、マルチ露光、マルチフォーカス画像融合の4つの画像融合タスクにおいて有望な結果を示している。
論文 参考訳(メタデータ) (2024-02-03T18:36:39Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。