論文の概要: Image Fusion via Vision-Language Model
- arxiv url: http://arxiv.org/abs/2402.02235v1
- Date: Sat, 3 Feb 2024 18:36:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 21:16:35.961886
- Title: Image Fusion via Vision-Language Model
- Title(参考訳): 視覚言語モデルによる画像融合
- Authors: Zixiang Zhao, Lilun Deng, Haowen Bai, Yukun Cui, Zhipeng Zhang, Yulun
Zhang, Haotong Qin, Dongdong Chen, Jiangshe Zhang, Peng Wang, Luc Van Gool
- Abstract要約: 本稿では, VIsion-Language Model (FILM) による画像融合という新しい融合パラダイムを初めて紹介する。
FILMでは、入力画像を処理してセマンティックプロンプトを生成し、それをChatGPTに入力してリッチなテキスト記述を得る。
これらの記述はテキスト領域で融合され、ソース画像からの重要な視覚的特徴の抽出を相互注意を通して導く。
このパラダイムは、赤外線可視、医療、マルチ露光、マルチフォーカス画像融合の4つの画像融合タスクにおいて満足な結果を得る。
- 参考スコア(独自算出の注目度): 94.08749718119677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image fusion integrates essential information from multiple source images
into a single composite, emphasizing the highlighting structure and textures,
and refining imperfect areas. Existing methods predominantly focus on
pixel-level and semantic visual features for recognition. However, they
insufficiently explore the deeper semantic information at a text-level beyond
vision. Therefore, we introduce a novel fusion paradigm named image Fusion via
vIsion-Language Model (FILM), for the first time, utilizing explicit textual
information in different source images to guide image fusion. In FILM, input
images are firstly processed to generate semantic prompts, which are then fed
into ChatGPT to obtain rich textual descriptions. These descriptions are fused
in the textual domain and guide the extraction of crucial visual features from
the source images through cross-attention, resulting in a deeper level of
contextual understanding directed by textual semantic information. The final
fused image is created by vision feature decoder. This paradigm achieves
satisfactory results in four image fusion tasks: infrared-visible, medical,
multi-exposure, and multi-focus image fusion. We also propose a vision-language
dataset containing ChatGPT-based paragraph descriptions for the ten image
fusion datasets in four fusion tasks, facilitating future research in
vision-language model-based image fusion. Code and dataset will be released.
- Abstract(参考訳): 画像融合は、複数のソース画像から重要な情報を単一のコンポジットに統合し、ハイライト構造とテクスチャを強調し、不完全な領域を精製する。
既存の手法は主に認識のためのピクセルレベルとセマンティックな視覚機能に焦点を当てている。
しかし、視覚を超えたテキストレベルでの深い意味情報の探索は不十分である。
そこで我々は,VIsion-Language Model (FILM) による画像融合という新しい融合パラダイムを初めて導入し,画像融合を導くために異なるソース画像の明示的なテキスト情報を利用する。
FILMでは、入力画像はまずセマンティックプロンプトを生成するために処理され、次にChatGPTに入力され、リッチなテキスト記述を得る。
これらの記述はテキスト領域で融合され、ソース画像からの重要な視覚的特徴の抽出をクロス・アテンションによってガイドする。
最後の融合画像は視覚特徴デコーダによって作成される。
このパラダイムは、赤外線可視化、医療、マルチ露光、マルチフォーカス画像融合の4つの画像融合タスクで満足できる結果を達成する。
また,ChatGPTに基づく4つの融合タスクにおける10の画像融合データセットについて,ChatGPTに基づく段落記述を含む視覚言語データセットを提案する。
コードとデータセットがリリースされる。
関連論文リスト
- Text-DiFuse: An Interactive Multi-Modal Image Fusion Framework based on Text-modulated Diffusion Model [30.739879255847946]
既存のマルチモーダル画像融合法では、ソース画像に示される複合劣化に対処できない。
本研究では,テキスト変調拡散モデルであるText-DiFuseに基づく,インタラクティブなマルチモーダル画像融合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T13:10:50Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion [26.809259323430368]
そこで本研究では,テキストIF(Text-IF)と呼ばれる画像融合タスクにおいて,意味的テキスト誘導画像融合モデルを活用する新しい手法を提案する。
テキストIFは、オールインワンの赤外線および可視画像劣化認識処理およびインタラクティブなフレキシブル融合結果にアクセスできる。
このように、Text-IFはマルチモーダル画像融合だけでなく、マルチモーダル情報融合も実現している。
論文 参考訳(メタデータ) (2024-03-25T03:06:45Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - TextFusion: Unveiling the Power of Textual Semantics for Controllable
Image Fusion [38.61215361212626]
本稿では,高度な画像融合のためのテキスト誘導融合パラダイムを提案する。
テキスト注釈付き画像融合データセットIVTをリリースする。
我々のアプローチは、従来の外見に基づく融合法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-12-21T09:25:10Z) - Scene Graph Based Fusion Network For Image-Text Retrieval [2.962083552798791]
画像テキスト検索における重要な課題は、画像とテキストの正確な対応を学習する方法である。
そこで我々は,Scene GraphベースのFusion Network(SGFN)を提案する。
我々のSGFNは、非常に少数のSOTA画像テキスト検索方法よりも優れている。
論文 参考訳(メタデータ) (2023-03-20T13:22:56Z) - Fine-grained Cross-modal Fusion based Refinement for Text-to-Image
Synthesis [12.954663420736782]
本稿では,FF-GAN と呼ばれるファイングラファスなテキストイメージベースのジェネレーティブ・アドバーサリアル・ネットワークを提案する。
FF-GANは、微細なテキストイメージ融合ブロック(FF-Block)とGSR(Global Semantic Refinement)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-02-17T05:44:05Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - Real-MFF: A Large Realistic Multi-focus Image Dataset with Ground Truth [58.226535803985804]
我々はReal-MFFと呼ばれる大規模で現実的なマルチフォーカスデータセットを導入する。
データセットは、710対のソースイメージと対応する接地真理画像を含む。
このデータセット上で10の典型的なマルチフォーカスアルゴリズムを図示のために評価する。
論文 参考訳(メタデータ) (2020-03-28T12:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。