論文の概要: Image Fusion via Vision-Language Model
- arxiv url: http://arxiv.org/abs/2402.02235v1
- Date: Sat, 3 Feb 2024 18:36:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 21:16:35.961886
- Title: Image Fusion via Vision-Language Model
- Title(参考訳): 視覚言語モデルによる画像融合
- Authors: Zixiang Zhao, Lilun Deng, Haowen Bai, Yukun Cui, Zhipeng Zhang, Yulun
Zhang, Haotong Qin, Dongdong Chen, Jiangshe Zhang, Peng Wang, Luc Van Gool
- Abstract要約: 本稿では, VIsion-Language Model (FILM) による画像融合という新しい融合パラダイムを初めて紹介する。
FILMでは、入力画像を処理してセマンティックプロンプトを生成し、それをChatGPTに入力してリッチなテキスト記述を得る。
これらの記述はテキスト領域で融合され、ソース画像からの重要な視覚的特徴の抽出を相互注意を通して導く。
このパラダイムは、赤外線可視、医療、マルチ露光、マルチフォーカス画像融合の4つの画像融合タスクにおいて満足な結果を得る。
- 参考スコア(独自算出の注目度): 94.08749718119677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image fusion integrates essential information from multiple source images
into a single composite, emphasizing the highlighting structure and textures,
and refining imperfect areas. Existing methods predominantly focus on
pixel-level and semantic visual features for recognition. However, they
insufficiently explore the deeper semantic information at a text-level beyond
vision. Therefore, we introduce a novel fusion paradigm named image Fusion via
vIsion-Language Model (FILM), for the first time, utilizing explicit textual
information in different source images to guide image fusion. In FILM, input
images are firstly processed to generate semantic prompts, which are then fed
into ChatGPT to obtain rich textual descriptions. These descriptions are fused
in the textual domain and guide the extraction of crucial visual features from
the source images through cross-attention, resulting in a deeper level of
contextual understanding directed by textual semantic information. The final
fused image is created by vision feature decoder. This paradigm achieves
satisfactory results in four image fusion tasks: infrared-visible, medical,
multi-exposure, and multi-focus image fusion. We also propose a vision-language
dataset containing ChatGPT-based paragraph descriptions for the ten image
fusion datasets in four fusion tasks, facilitating future research in
vision-language model-based image fusion. Code and dataset will be released.
- Abstract(参考訳): 画像融合は、複数のソース画像から重要な情報を単一のコンポジットに統合し、ハイライト構造とテクスチャを強調し、不完全な領域を精製する。
既存の手法は主に認識のためのピクセルレベルとセマンティックな視覚機能に焦点を当てている。
しかし、視覚を超えたテキストレベルでの深い意味情報の探索は不十分である。
そこで我々は,VIsion-Language Model (FILM) による画像融合という新しい融合パラダイムを初めて導入し,画像融合を導くために異なるソース画像の明示的なテキスト情報を利用する。
FILMでは、入力画像はまずセマンティックプロンプトを生成するために処理され、次にChatGPTに入力され、リッチなテキスト記述を得る。
これらの記述はテキスト領域で融合され、ソース画像からの重要な視覚的特徴の抽出をクロス・アテンションによってガイドする。
最後の融合画像は視覚特徴デコーダによって作成される。
このパラダイムは、赤外線可視化、医療、マルチ露光、マルチフォーカス画像融合の4つの画像融合タスクで満足できる結果を達成する。
また,ChatGPTに基づく4つの融合タスクにおける10の画像融合データセットについて,ChatGPTに基づく段落記述を含む視覚言語データセットを提案する。
コードとデータセットがリリースされる。
関連論文リスト
- Few-Shot Relation Extraction with Hybrid Visual Evidence [3.154631846975021]
MFS-HVE(Multi-modal few-shot relation extract model)を提案する。
MFS-HVEは意味的特徴抽出器とマルチモーダル融合コンポーネントを含む。
2つの公開データセットで行った実験は、意味的な視覚情報が数発の関係予測の性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-03-01T18:20:11Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - TextFusion: Unveiling the Power of Textual Semantics for Controllable
Image Fusion [38.61215361212626]
本稿では,高度な画像融合のためのテキスト誘導融合パラダイムを提案する。
テキスト注釈付き画像融合データセットIVTをリリースする。
我々のアプローチは、従来の外見に基づく融合法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-12-21T09:25:10Z) - Scene Graph Based Fusion Network For Image-Text Retrieval [2.962083552798791]
画像テキスト検索における重要な課題は、画像とテキストの正確な対応を学習する方法である。
そこで我々は,Scene GraphベースのFusion Network(SGFN)を提案する。
我々のSGFNは、非常に少数のSOTA画像テキスト検索方法よりも優れている。
論文 参考訳(メタデータ) (2023-03-20T13:22:56Z) - Fine-grained Cross-modal Fusion based Refinement for Text-to-Image
Synthesis [12.954663420736782]
本稿では,FF-GAN と呼ばれるファイングラファスなテキストイメージベースのジェネレーティブ・アドバーサリアル・ネットワークを提案する。
FF-GANは、微細なテキストイメージ融合ブロック(FF-Block)とGSR(Global Semantic Refinement)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-02-17T05:44:05Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Real-MFF: A Large Realistic Multi-focus Image Dataset with Ground Truth [58.226535803985804]
我々はReal-MFFと呼ばれる大規模で現実的なマルチフォーカスデータセットを導入する。
データセットは、710対のソースイメージと対応する接地真理画像を含む。
このデータセット上で10の典型的なマルチフォーカスアルゴリズムを図示のために評価する。
論文 参考訳(メタデータ) (2020-03-28T12:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。