論文の概要: Infrared and visible Image Fusion with Language-driven Loss in CLIP
Embedding Space
- arxiv url: http://arxiv.org/abs/2402.16267v1
- Date: Mon, 26 Feb 2024 03:08:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:43:51.300482
- Title: Infrared and visible Image Fusion with Language-driven Loss in CLIP
Embedding Space
- Title(参考訳): CLIP埋め込み空間における言語駆動損失を用いた赤外・可視画像融合
- Authors: Yuhao Wang, Lingjuan Miao, Zhiqiang Zhou, Lei Zhang and Yajun Qiao
- Abstract要約: Infrared-visible Image fusion (IVIF) は2つの画像の高相性により注目されている。
基底構造融合画像の欠如により、現在のディープラーニングベースの手法の融合出力は、数学的に定義された損失関数に大きく依存する。
本稿では,IVIFの目的を自然言語で表現することを提案する。これは,現在の損失における融合出力の明確な数学的モデリングを回避することができる。
- 参考スコア(独自算出の注目度): 11.781163181013454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared-visible image fusion (IVIF) has attracted much attention owing to
the highly-complementary properties of the two image modalities. Due to the
lack of ground-truth fused images, the fusion output of current deep-learning
based methods heavily depends on the loss functions defined mathematically. As
it is hard to well mathematically define the fused image without ground truth,
the performance of existing fusion methods is limited. In this paper, we first
propose to use natural language to express the objective of IVIF, which can
avoid the explicit mathematical modeling of fusion output in current losses,
and make full use of the advantage of language expression to improve the fusion
performance. For this purpose, we present a comprehensive language-expressed
fusion objective, and encode relevant texts into the multi-modal embedding
space using CLIP. A language-driven fusion model is then constructed in the
embedding space, by establishing the relationship among the embedded vectors to
represent the fusion objective and input image modalities. Finally, a
language-driven loss is derived to make the actual IVIF aligned with the
embedded language-driven fusion model via supervised training. Experiments show
that our method can obtain much better fusion results than existing techniques.
- Abstract(参考訳): Infrared-visible Image fusion (IVIF) は2つの画像の高相性により注目されている。
地中融合画像の欠如により、現在のディープラーニングに基づく手法の融合出力は、数学的に定義された損失関数に大きく依存する。
基底真理を伴わずに融合像を数学的に適切に定義することは困難であるため、既存の融合法の性能は限られている。
本稿では,まず自然言語を用いてivifの目的を表現し,現在の損失における融合出力の明示的な数学的モデリングを回避し,言語表現の利点を最大限活用して融合性能を向上させることを提案する。
この目的のために,包括的言語表現融合目標を提案し,関連するテキストをCLIPを用いてマルチモーダル埋め込み空間にエンコードする。
次に、融合目標と入力画像のモダリティを表すために、埋め込みベクトル間の関係を確立することにより、言語駆動の融合モデルを構築する。
最後に、言語駆動の損失を導出し、実際のIVIFを、教師付きトレーニングを通じて組み込み言語駆動の融合モデルに整合させる。
実験により,本手法は既存の手法よりもはるかに優れた融合結果が得られることが示された。
関連論文リスト
- Text-DiFuse: An Interactive Multi-Modal Image Fusion Framework based on Text-modulated Diffusion Model [30.739879255847946]
既存のマルチモーダル画像融合法では、ソース画像に示される複合劣化に対処できない。
本研究では,テキスト変調拡散モデルであるText-DiFuseに基づく,インタラクティブなマルチモーダル画像融合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T13:10:50Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - An Intermediate Fusion ViT Enables Efficient Text-Image Alignment in Diffusion Models [18.184158874126545]
異なる融合戦略が視覚言語アライメントにどのように影響するかを検討する。
特別に設計された中間融合により、テキストと画像のアライメントが向上し、生成品質が向上する。
このモデルでは, FLOPを20%削減し, トレーニング速度を50%向上させるとともに, より高いCLIPスコアと低いFIDを実現する。
論文 参考訳(メタデータ) (2024-03-25T08:16:06Z) - Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion [26.809259323430368]
そこで本研究では,テキストIF(Text-IF)と呼ばれる画像融合タスクにおいて,意味的テキスト誘導画像融合モデルを活用する新しい手法を提案する。
テキストIFは、オールインワンの赤外線および可視画像劣化認識処理およびインタラクティブなフレキシブル融合結果にアクセスできる。
このように、Text-IFはマルチモーダル画像融合だけでなく、マルチモーダル情報融合も実現している。
論文 参考訳(メタデータ) (2024-03-25T03:06:45Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - Breaking Free from Fusion Rule: A Fully Semantic-driven Infrared and
Visible Image Fusion [51.22863068854784]
赤外線と可視画像の融合はコンピュータビジョンの分野において重要な役割を果たす。
従来のアプローチでは、損失関数の様々な融合ルールを設計する努力が続けられていた。
セマンティックガイダンスを十分に活用する意味レベル融合ネットワークを開発した。
論文 参考訳(メタデータ) (2022-11-22T13:59:59Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature
Ensemble for Multi-modality Image Fusion [72.8898811120795]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。