Fugu-MT 論文翻訳(概要): Image Fusion via Vision-Language Model

論文の概要: Image Fusion via Vision-Language Model

arxiv url: http://arxiv.org/abs/2402.02235v1
Date: Sat, 3 Feb 2024 18:36:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 21:16:35.961886
Title: Image Fusion via Vision-Language Model
Title（参考訳）: 視覚言語モデルによる画像融合
Authors: Zixiang Zhao, Lilun Deng, Haowen Bai, Yukun Cui, Zhipeng Zhang, Yulun Zhang, Haotong Qin, Dongdong Chen, Jiangshe Zhang, Peng Wang, Luc Van Gool
Abstract要約: 本稿では, VIsion-Language Model (FILM) による画像融合という新しい融合パラダイムを初めて紹介する。 FILMでは、入力画像を処理してセマンティックプロンプトを生成し、それをChatGPTに入力してリッチなテキスト記述を得る。これらの記述はテキスト領域で融合され、ソース画像からの重要な視覚的特徴の抽出を相互注意を通して導く。このパラダイムは、赤外線可視、医療、マルチ露光、マルチフォーカス画像融合の4つの画像融合タスクにおいて満足な結果を得る。
参考スコア（独自算出の注目度）: 94.08749718119677
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image fusion integrates essential information from multiple source images into a single composite, emphasizing the highlighting structure and textures, and refining imperfect areas. Existing methods predominantly focus on pixel-level and semantic visual features for recognition. However, they insufficiently explore the deeper semantic information at a text-level beyond vision. Therefore, we introduce a novel fusion paradigm named image Fusion via vIsion-Language Model (FILM), for the first time, utilizing explicit textual information in different source images to guide image fusion. In FILM, input images are firstly processed to generate semantic prompts, which are then fed into ChatGPT to obtain rich textual descriptions. These descriptions are fused in the textual domain and guide the extraction of crucial visual features from the source images through cross-attention, resulting in a deeper level of contextual understanding directed by textual semantic information. The final fused image is created by vision feature decoder. This paradigm achieves satisfactory results in four image fusion tasks: infrared-visible, medical, multi-exposure, and multi-focus image fusion. We also propose a vision-language dataset containing ChatGPT-based paragraph descriptions for the ten image fusion datasets in four fusion tasks, facilitating future research in vision-language model-based image fusion. Code and dataset will be released.
Abstract（参考訳）: 画像融合は、複数のソース画像から重要な情報を単一のコンポジットに統合し、ハイライト構造とテクスチャを強調し、不完全な領域を精製する。既存の手法は主に認識のためのピクセルレベルとセマンティックな視覚機能に焦点を当てている。しかし、視覚を超えたテキストレベルでの深い意味情報の探索は不十分である。そこで我々は,VIsion-Language Model (FILM) による画像融合という新しい融合パラダイムを初めて導入し,画像融合を導くために異なるソース画像の明示的なテキスト情報を利用する。 FILMでは、入力画像はまずセマンティックプロンプトを生成するために処理され、次にChatGPTに入力され、リッチなテキスト記述を得る。これらの記述はテキスト領域で融合され、ソース画像からの重要な視覚的特徴の抽出をクロス・アテンションによってガイドする。最後の融合画像は視覚特徴デコーダによって作成される。このパラダイムは、赤外線可視化、医療、マルチ露光、マルチフォーカス画像融合の4つの画像融合タスクで満足できる結果を達成する。また,ChatGPTに基づく4つの融合タスクにおける10の画像融合データセットについて,ChatGPTに基づく段落記述を含む視覚言語データセットを提案する。コードとデータセットがリリースされる。

関連論文リスト

TeSG: Textual Semantic Guidance for Infrared and Visible Image Fusion [55.34830989105704]
Infrared and visible image fusion (IVF) は、画像モダリティの相補的な情報を組み合わせることを目的としている。テキスト意味論は,マスクの意味レベルとテキスト意味レベルという2つのレベルで導入する。画像合成プロセスのガイドとなる赤外線・可視画像融合のためのテクスチュアル・セマンティック・ガイダンスを提案する。
論文参考訳（メタデータ） (2025-06-20T03:53:07Z)
Text-DiFuse: An Interactive Multi-Modal Image Fusion Framework based on Text-modulated Diffusion Model [30.739879255847946]
既存のマルチモーダル画像融合法では、ソース画像に示される複合劣化に対処できない。本研究では,テキスト変調拡散モデルであるText-DiFuseに基づく,インタラクティブなマルチモーダル画像融合フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-31T13:10:50Z)
Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。 DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文参考訳（メタデータ） (2024-10-16T06:28:49Z)
Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion [26.809259323430368]
そこで本研究では,テキストIF(Text-IF)と呼ばれる画像融合タスクにおいて,意味的テキスト誘導画像融合モデルを活用する新しい手法を提案する。テキストIFは、オールインワンの赤外線および可視画像劣化認識処理およびインタラクティブなフレキシブル融合結果にアクセスできる。このように、Text-IFはマルチモーダル画像融合だけでなく、マルチモーダル情報融合も実現している。
論文参考訳（メタデータ） (2024-03-25T03:06:45Z)
From Text to Pixels: A Context-Aware Semantic Synergy Solution for Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文参考訳（メタデータ） (2023-12-31T08:13:47Z)
TextFusion: Unveiling the Power of Textual Semantics for Controllable Image Fusion [38.61215361212626]
本稿では,高度な画像融合のためのテキスト誘導融合パラダイムを提案する。テキスト注釈付き画像融合データセットIVTをリリースする。我々のアプローチは、従来の外見に基づく融合法よりも一貫して優れています。
論文参考訳（メタデータ） (2023-12-21T09:25:10Z)
Scene Graph Based Fusion Network For Image-Text Retrieval [2.962083552798791]
画像テキスト検索における重要な課題は、画像とテキストの正確な対応を学習する方法である。そこで我々は,Scene GraphベースのFusion Network(SGFN)を提案する。我々のSGFNは、非常に少数のSOTA画像テキスト検索方法よりも優れている。
論文参考訳（メタデータ） (2023-03-20T13:22:56Z)
Fine-grained Cross-modal Fusion based Refinement for Text-to-Image Synthesis [12.954663420736782]
本稿では,FF-GAN と呼ばれるファイングラファスなテキストイメージベースのジェネレーティブ・アドバーサリアル・ネットワークを提案する。 FF-GANは、微細なテキストイメージ融合ブロック(FF-Block)とGSR(Global Semantic Refinement)の2つのモジュールで構成されている。
論文参考訳（メタデータ） (2023-02-17T05:44:05Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)
Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文参考訳（メタデータ） (2021-07-26T05:50:41Z)
Real-MFF: A Large Realistic Multi-focus Image Dataset with Ground Truth [58.226535803985804]
我々はReal-MFFと呼ばれる大規模で現実的なマルチフォーカスデータセットを導入する。データセットは、710対のソースイメージと対応する接地真理画像を含む。このデータセット上で10の典型的なマルチフォーカスアルゴリズムを図示のために評価する。
論文参考訳（メタデータ） (2020-03-28T12:33:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。