Fugu-MT 論文翻訳(概要): TextFusion: Unveiling the Power of Textual Semantics for Controllable Image Fusion

論文の概要: TextFusion: Unveiling the Power of Textual Semantics for Controllable Image Fusion

arxiv url: http://arxiv.org/abs/2312.14209v2
Date: Thu, 8 Feb 2024 11:43:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 18:34:00.285544
Title: TextFusion: Unveiling the Power of Textual Semantics for Controllable Image Fusion
Title（参考訳）: テキストフュージョン:制御可能な画像融合のためのテキストセマンティクスのパワー
Authors: Chunyang Cheng, Tianyang Xu, Xiao-Jun Wu, Hui Li, Xi Li, Zhangyong Tang, Josef Kittler
Abstract要約: 本稿では,高度な画像融合のためのテキスト誘導融合パラダイムを提案する。テキスト注釈付き画像融合データセットIVTをリリースする。我々のアプローチは、従来の外見に基づく融合法よりも一貫して優れています。
参考スコア（独自算出の注目度）: 38.61215361212626
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advanced image fusion methods are devoted to generating the fusion results by aggregating the complementary information conveyed by the source images. However, the difference in the source-specific manifestation of the imaged scene content makes it difficult to design a robust and controllable fusion process. We argue that this issue can be alleviated with the help of higher-level semantics, conveyed by the text modality, which should enable us to generate fused images for different purposes, such as visualisation and downstream tasks, in a controllable way. This is achieved by exploiting a vision-and-language model to build a coarse-to-fine association mechanism between the text and image signals. With the guidance of the association maps, an affine fusion unit is embedded in the transformer network to fuse the text and vision modalities at the feature level. As another ingredient of this work, we propose the use of textual attention to adapt image quality assessment to the fusion task. To facilitate the implementation of the proposed text-guided fusion paradigm, and its adoption by the wider research community, we release a text-annotated image fusion dataset IVT. Extensive experiments demonstrate that our approach (TextFusion) consistently outperforms traditional appearance-based fusion methods. Our code and dataset will be publicly available at https://github.com/AWCXV/TextFusion.
Abstract（参考訳）: 高度な画像融合法は、ソース画像が伝達する補完情報を集約して融合結果を生成する。しかし,画像のシーン内容のソース固有の表現の違いは,堅牢で制御可能な融合プロセスの設計を困難にしている。この問題は、テキストモダリティによって伝達される高レベルの意味論の助けを借りて緩和できるため、可視化や下流タスクなど、さまざまな目的のために融合した画像を制御可能な方法で生成することが可能である。これは、視覚・言語モデルを利用してテキストと画像信号の間の粗大な結合機構を構築することで実現される。関連マップの指導により、アフィン融合ユニットがトランスフォーマーネットワークに埋め込まれ、テキストと視覚のモダリティを特徴レベルで融合する。本研究のもう1つの要素として,画像品質評価を融合タスクに適用するためのテキストアテンションの利用を提案する。提案するテキストガイド型融合パラダイムの実装と,その広範な研究コミュニティによる採用を容易にするため,テキストアノテーション付き画像融合データセットivtをリリースする。広範な実験により,我々のアプローチ(textfusion)は,従来の外観ベース融合法を一貫して上回っていることが示された。私たちのコードとデータセットはhttps://github.com/AWCXV/TextFusion.comで公開されます。

関連論文リスト

RIS-FUSION: Rethinking Text-Driven Infrared and Visible Image Fusion from the Perspective of Referring Image Segmentation [4.723262609467585]
テキスト駆動型赤外線および可視画像融合は、自然言語による融合プロセスのガイドを可能にするために注目されている。既存の手法では、入力テキストが融合結果にどの程度効果的に寄与するかを監督し、評価するためのゴール整合タスクが欠如している。画像のセグメンテーションとテキスト駆動融合は、テキストが参照するオブジェクトのハイライトという共通の目的を共有していることを観察する。そこで我々は,融合とRISを結合最適化により統一するケースケードフレームワークRIS-Fusionを提案する。
論文参考訳（メタデータ） (2025-09-16T06:03:15Z)
TeSG: Textual Semantic Guidance for Infrared and Visible Image Fusion [55.34830989105704]
Infrared and visible image fusion (IVF) は、画像モダリティの相補的な情報を組み合わせることを目的としている。テキスト意味論は,マスクの意味レベルとテキスト意味レベルという2つのレベルで導入する。画像合成プロセスのガイドとなる赤外線・可視画像融合のためのテクスチュアル・セマンティック・ガイダンスを提案する。
論文参考訳（メタデータ） (2025-06-20T03:53:07Z)
DreamFuse: Adaptive Image Fusion with Diffusion Transformer [85.69622262632066]
本稿では,画像融合データセットを生成するための反復的ヒューマン・イン・ザ・ループデータ生成パイプラインを提案する。本研究では,背景情報と背景情報の両方で一貫した画像を生成する新しいアプローチであるDreamFuseを紹介する。 DreamFuseは、融合した結果のテキスト駆動編集に一般化しながら、調和した融合を実現する。
論文参考訳（メタデータ） (2025-04-11T06:49:33Z)
Text-DiFuse: An Interactive Multi-Modal Image Fusion Framework based on Text-modulated Diffusion Model [30.739879255847946]
既存のマルチモーダル画像融合法では、ソース画像に示される複合劣化に対処できない。本研究では,テキスト変調拡散モデルであるText-DiFuseに基づく,インタラクティブなマルチモーダル画像融合フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-31T13:10:50Z)
Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。 DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文参考訳（メタデータ） (2024-10-16T06:28:49Z)
An Intermediate Fusion ViT Enables Efficient Text-Image Alignment in Diffusion Models [18.184158874126545]
異なる融合戦略が視覚言語アライメントにどのように影響するかを検討する。特別に設計された中間融合により、テキストと画像のアライメントが向上し、生成品質が向上する。このモデルでは, FLOPを20%削減し, トレーニング速度を50%向上させるとともに, より高いCLIPスコアと低いFIDを実現する。
論文参考訳（メタデータ） (2024-03-25T08:16:06Z)
Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion [26.809259323430368]
そこで本研究では,テキストIF(Text-IF)と呼ばれる画像融合タスクにおいて,意味的テキスト誘導画像融合モデルを活用する新しい手法を提案する。テキストIFは、オールインワンの赤外線および可視画像劣化認識処理およびインタラクティブなフレキシブル融合結果にアクセスできる。このように、Text-IFはマルチモーダル画像融合だけでなく、マルチモーダル情報融合も実現している。
論文参考訳（メタデータ） (2024-03-25T03:06:45Z)
Image Fusion via Vision-Language Model [91.36809431547128]
VIsion-Language Model (FILM)による画像融合という新しい融合パラダイムを導入する。 FILMは画像からセマンティックプロンプトを生成し、それらをChatGPTに入力し、包括的なテキスト記述を行う。これらの記述はテキスト領域内で融合され、視覚情報融合を導く。 FILMは、赤外線可視、医療、マルチ露光、マルチフォーカス画像融合の4つの画像融合タスクにおいて有望な結果を示している。
論文参考訳（メタデータ） (2024-02-03T18:36:39Z)
From Text to Pixels: A Context-Aware Semantic Synergy Solution for Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文参考訳（メタデータ） (2023-12-31T08:13:47Z)
A Task-guided, Implicitly-searched and Meta-initialized Deep Model for Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文参考訳（メタデータ） (2023-05-25T08:54:08Z)
Scene Graph Based Fusion Network For Image-Text Retrieval [2.962083552798791]
画像テキスト検索における重要な課題は、画像とテキストの正確な対応を学習する方法である。そこで我々は,Scene GraphベースのFusion Network(SGFN)を提案する。我々のSGFNは、非常に少数のSOTA画像テキスト検索方法よりも優れている。
論文参考訳（メタデータ） (2023-03-20T13:22:56Z)
DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文参考訳（メタデータ） (2020-08-13T12:51:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。