論文の概要: TextFusion: Unveiling the Power of Textual Semantics for Controllable
Image Fusion
- arxiv url: http://arxiv.org/abs/2312.14209v2
- Date: Thu, 8 Feb 2024 11:43:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 18:34:00.285544
- Title: TextFusion: Unveiling the Power of Textual Semantics for Controllable
Image Fusion
- Title(参考訳): テキストフュージョン:制御可能な画像融合のためのテキストセマンティクスのパワー
- Authors: Chunyang Cheng, Tianyang Xu, Xiao-Jun Wu, Hui Li, Xi Li, Zhangyong
Tang, Josef Kittler
- Abstract要約: 本稿では,高度な画像融合のためのテキスト誘導融合パラダイムを提案する。
テキスト注釈付き画像融合データセットIVTをリリースする。
我々のアプローチは、従来の外見に基づく融合法よりも一貫して優れています。
- 参考スコア(独自算出の注目度): 38.61215361212626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advanced image fusion methods are devoted to generating the fusion results by
aggregating the complementary information conveyed by the source images.
However, the difference in the source-specific manifestation of the imaged
scene content makes it difficult to design a robust and controllable fusion
process. We argue that this issue can be alleviated with the help of
higher-level semantics, conveyed by the text modality, which should enable us
to generate fused images for different purposes, such as visualisation and
downstream tasks, in a controllable way. This is achieved by exploiting a
vision-and-language model to build a coarse-to-fine association mechanism
between the text and image signals. With the guidance of the association maps,
an affine fusion unit is embedded in the transformer network to fuse the text
and vision modalities at the feature level. As another ingredient of this work,
we propose the use of textual attention to adapt image quality assessment to
the fusion task. To facilitate the implementation of the proposed text-guided
fusion paradigm, and its adoption by the wider research community, we release a
text-annotated image fusion dataset IVT. Extensive experiments demonstrate that
our approach (TextFusion) consistently outperforms traditional appearance-based
fusion methods. Our code and dataset will be publicly available at
https://github.com/AWCXV/TextFusion.
- Abstract(参考訳): 高度な画像融合法は、ソース画像が伝達する補完情報を集約して融合結果を生成する。
しかし,画像のシーン内容のソース固有の表現の違いは,堅牢で制御可能な融合プロセスの設計を困難にしている。
この問題は、テキストモダリティによって伝達される高レベルの意味論の助けを借りて緩和できるため、可視化や下流タスクなど、さまざまな目的のために融合した画像を制御可能な方法で生成することが可能である。
これは、視覚・言語モデルを利用してテキストと画像信号の間の粗大な結合機構を構築することで実現される。
関連マップの指導により、アフィン融合ユニットがトランスフォーマーネットワークに埋め込まれ、テキストと視覚のモダリティを特徴レベルで融合する。
本研究のもう1つの要素として,画像品質評価を融合タスクに適用するためのテキストアテンションの利用を提案する。
提案するテキストガイド型融合パラダイムの実装と,その広範な研究コミュニティによる採用を容易にするため,テキストアノテーション付き画像融合データセットivtをリリースする。
広範な実験により,我々のアプローチ(textfusion)は,従来の外観ベース融合法を一貫して上回っていることが示された。
私たちのコードとデータセットはhttps://github.com/AWCXV/TextFusion.comで公開されます。
関連論文リスト
- Image Fusion via Vision-Language Model [94.08749718119677]
本稿では, VIsion-Language Model (FILM) による画像融合という新しい融合パラダイムを初めて紹介する。
FILMでは、入力画像を処理してセマンティックプロンプトを生成し、それをChatGPTに入力してリッチなテキスト記述を得る。
これらの記述はテキスト領域で融合され、ソース画像からの重要な視覚的特徴の抽出を相互注意を通して導く。
このパラダイムは、赤外線可視、医療、マルチ露光、マルチフォーカス画像融合の4つの画像融合タスクにおいて満足な結果を得る。
論文 参考訳(メタデータ) (2024-02-03T18:36:39Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Equivariant Multi-Modality Image Fusion [142.84362457655516]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然像が特定の変換に等しくなるという以前の知識に基づいている。
実験により,赤外可視画像と医用画像の両方に対して高品質な融合結果が得られた。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - Scene Graph Based Fusion Network For Image-Text Retrieval [2.962083552798791]
画像テキスト検索における重要な課題は、画像とテキストの正確な対応を学習する方法である。
そこで我々は,Scene GraphベースのFusion Network(SGFN)を提案する。
我々のSGFNは、非常に少数のSOTA画像テキスト検索方法よりも優れている。
論文 参考訳(メタデータ) (2023-03-20T13:22:56Z) - Fine-grained Cross-modal Fusion based Refinement for Text-to-Image
Synthesis [12.954663420736782]
本稿では,FF-GAN と呼ばれるファイングラファスなテキストイメージベースのジェネレーティブ・アドバーサリアル・ネットワークを提案する。
FF-GANは、微細なテキストイメージ融合ブロック(FF-Block)とGSR(Global Semantic Refinement)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-02-17T05:44:05Z) - Cross-modal Image Retrieval with Deep Mutual Information Maximization [14.778158582349137]
本研究では,入力にソース画像を含むクロスモーダル画像検索と,その画像と所望の画像の修正を記述したテキストについて検討する。
本手法は, テキストモダリティと画像モダリティのモダリティギャップを狭め, 意味的には同一でない表現間の相互情報を最大化する。
論文 参考訳(メタデータ) (2021-03-10T13:08:09Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。