論文の概要: From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion
- arxiv url: http://arxiv.org/abs/2401.00421v1
- Date: Sun, 31 Dec 2023 08:13:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 17:31:53.939578
- Title: From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion
- Title(参考訳): テキストからピクセルへ:赤外線と可視画像融合のためのコンテキスト対応セマンティックシナジーソリューション
- Authors: Xingyuan Li, Yang Zou, Jinyuan Liu, Zhiying Jiang, Long Ma, Xin Fan,
Risheng Liu
- Abstract要約: 我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
- 参考スコア(独自算出の注目度): 66.33467192279514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid progression of deep learning technologies, multi-modality
image fusion has become increasingly prevalent in object detection tasks.
Despite its popularity, the inherent disparities in how different sources
depict scene content make fusion a challenging problem. Current fusion
methodologies identify shared characteristics between the two modalities and
integrate them within this shared domain using either iterative optimization or
deep learning architectures, which often neglect the intricate semantic
relationships between modalities, resulting in a superficial understanding of
inter-modal connections and, consequently, suboptimal fusion outcomes. To
address this, we introduce a text-guided multi-modality image fusion method
that leverages the high-level semantics from textual descriptions to integrate
semantics from infrared and visible images. This method capitalizes on the
complementary characteristics of diverse modalities, bolstering both the
accuracy and robustness of object detection. The codebook is utilized to
enhance a streamlined and concise depiction of the fused intra- and
inter-domain dynamics, fine-tuned for optimal performance in detection tasks.
We present a bilevel optimization strategy that establishes a nexus between the
joint problem of fusion and detection, optimizing both processes concurrently.
Furthermore, we introduce the first dataset of paired infrared and visible
images accompanied by text prompts, paving the way for future research.
Extensive experiments on several datasets demonstrate that our method not only
produces visually superior fusion results but also achieves a higher detection
mAP over existing methods, achieving state-of-the-art results.
- Abstract(参考訳): ディープラーニング技術の急速な進歩に伴い、オブジェクト検出タスクにおいて多モード画像融合がますます普及している。
その人気にもかかわらず、異なるソースがシーンコンテンツを描写する方法における固有の格差は、融合を困難な問題にしている。
現在の融合手法では、2つのモダリティ間の共有特性を識別し、反復的最適化またはディープラーニングアーキテクチャを用いて共有ドメインに統合し、モダリティ間の複雑な意味関係を無視して、モダリティ間の相互接続を表面的に理解し、その結果、準最適融合結果をもたらす。
そこで本研究では,テキスト記述から高レベルなセマンティクスを活用し,赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合手法を提案する。
本手法は, 物体検出の精度とロバスト性を両立させ, 多様なモーダルの相補的特性に乗じる。
このコードブックは、検出タスクにおける最適な性能のために微調整されたドメイン内およびドメイン間ダイナミクスの合理的で簡潔な描写を強化するために利用される。
本稿では,融合問題と検出問題とを両立させる二段階最適化戦略を提案し,両者のプロセスを同時に最適化する。
さらに、テキストプロンプトを伴い、対の赤外線と可視画像の最初のデータセットを導入し、将来の研究への道を開く。
いくつかのデータセットに対する大規模な実験により、我々の手法は視覚的に優れた融合結果を生成するだけでなく、既存の手法よりも高い検出mAPを達成し、最先端の結果を得ることを示した。
関連論文リスト
- Text-DiFuse: An Interactive Multi-Modal Image Fusion Framework based on Text-modulated Diffusion Model [30.739879255847946]
既存のマルチモーダル画像融合法では、ソース画像に示される複合劣化に対処できない。
本研究では,テキスト変調拡散モデルであるText-DiFuseに基づく,インタラクティブなマルチモーダル画像融合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T13:10:50Z) - Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion [26.809259323430368]
そこで本研究では,テキストIF(Text-IF)と呼ばれる画像融合タスクにおいて,意味的テキスト誘導画像融合モデルを活用する新しい手法を提案する。
テキストIFは、オールインワンの赤外線および可視画像劣化認識処理およびインタラクティブなフレキシブル融合結果にアクセスできる。
このように、Text-IFはマルチモーダル画像融合だけでなく、マルチモーダル情報融合も実現している。
論文 参考訳(メタデータ) (2024-03-25T03:06:45Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - An Interactively Reinforced Paradigm for Joint Infrared-Visible Image
Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。
経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。
マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文 参考訳(メタデータ) (2023-05-17T06:48:35Z) - Breaking Free from Fusion Rule: A Fully Semantic-driven Infrared and
Visible Image Fusion [51.22863068854784]
赤外線と可視画像の融合はコンピュータビジョンの分野において重要な役割を果たす。
従来のアプローチでは、損失関数の様々な融合ルールを設計する努力が続けられていた。
セマンティックガイダンスを十分に活用する意味レベル融合ネットワークを開発した。
論文 参考訳(メタデータ) (2022-11-22T13:59:59Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature
Ensemble for Multi-modality Image Fusion [72.8898811120795]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z) - Cross-modal Image Retrieval with Deep Mutual Information Maximization [14.778158582349137]
本研究では,入力にソース画像を含むクロスモーダル画像検索と,その画像と所望の画像の修正を記述したテキストについて検討する。
本手法は, テキストモダリティと画像モダリティのモダリティギャップを狭め, 意味的には同一でない表現間の相互情報を最大化する。
論文 参考訳(メタデータ) (2021-03-10T13:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。