論文の概要: RIS-FUSION: Rethinking Text-Driven Infrared and Visible Image Fusion from the Perspective of Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2509.12710v1
- Date: Tue, 16 Sep 2025 06:03:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.912659
- Title: RIS-FUSION: Rethinking Text-Driven Infrared and Visible Image Fusion from the Perspective of Referring Image Segmentation
- Title(参考訳): RIS-FUSION:画像分割参照の観点からのテキスト駆動型赤外・可視画像融合の再考
- Authors: Siju Ma, Changsiyu Gong, Xiaofeng Fan, Yong Ma, Chengjie Jiang,
- Abstract要約: テキスト駆動型赤外線および可視画像融合は、自然言語による融合プロセスのガイドを可能にするために注目されている。
既存の手法では、入力テキストが融合結果にどの程度効果的に寄与するかを監督し、評価するためのゴール整合タスクが欠如している。
画像のセグメンテーションとテキスト駆動融合は、テキストが参照するオブジェクトのハイライトという共通の目的を共有していることを観察する。
そこで我々は,融合とRISを結合最適化により統一するケースケードフレームワークRIS-Fusionを提案する。
- 参考スコア(独自算出の注目度): 4.723262609467585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven infrared and visible image fusion has gained attention for enabling natural language to guide the fusion process. However, existing methods lack a goal-aligned task to supervise and evaluate how effectively the input text contributes to the fusion outcome. We observe that referring image segmentation (RIS) and text-driven fusion share a common objective: highlighting the object referred to by the text. Motivated by this, we propose RIS-FUSION, a cascaded framework that unifies fusion and RIS through joint optimization. At its core is the LangGatedFusion module, which injects textual features into the fusion backbone to enhance semantic alignment. To support multimodal referring image segmentation task, we introduce MM-RIS, a large-scale benchmark with 12.5k training and 3.5k testing triplets, each consisting of an infrared-visible image pair, a segmentation mask, and a referring expression. Extensive experiments show that RIS-FUSION achieves state-of-the-art performance, outperforming existing methods by over 11% in mIoU. Code and dataset will be released at https://github.com/SijuMa2003/RIS-FUSION.
- Abstract(参考訳): テキスト駆動型赤外線および可視画像融合は、自然言語による融合プロセスのガイドを可能にするために注目されている。
しかし、既存の手法では、入力テキストが融合結果にどの程度効果的に寄与するかを監督し、評価するためのゴール整合タスクが欠如している。
我々は、参照画像分割(RIS)とテキスト駆動融合が共通の目的を共有していることを観察する。
そこで我々は,融合とRISを結合最適化により統一するケースケードフレームワークRIS-FUSIONを提案する。
コアとなるLangGatedFusionモジュールは、テキスト機能をフュージョンバックボーンに注入してセマンティックアライメントを強化するものだ。
マルチモーダル参照画像セグメンテーションタスクをサポートするために,赤外線可視像対,セグメンテーションマスク,参照表現からなる12.5kのトレーニングと3.5kのテストトレーレットを備えた大規模ベンチマークMM-RISを導入する。
RIS-FUSIONは最先端の性能を達成し,mIoUの11%以上を達成している。
コードとデータセットはhttps://github.com/SijuMa2003/RIS-FUSION.comで公開される。
関連論文リスト
- MAFS: Masked Autoencoder for Infrared-Visible Image Fusion and Semantic Segmentation [43.62940654606311]
画像融合とセマンティックセグメンテーションのための統合ネットワークを提案する。
画像融合のセマンティック・アウェア機能を高めるための異種機能融合戦略を考案する。
フレームワーク内では,マルチステージトランスフォーマーデコーダを設計し,より微細なマルチスケールフューズされた特徴を効率的に集約する。
論文 参考訳(メタデータ) (2025-09-15T11:55:55Z) - TeSG: Textual Semantic Guidance for Infrared and Visible Image Fusion [55.34830989105704]
Infrared and visible image fusion (IVF) は、画像モダリティの相補的な情報を組み合わせることを目的としている。
テキスト意味論は,マスクの意味レベルとテキスト意味レベルという2つのレベルで導入する。
画像合成プロセスのガイドとなる赤外線・可視画像融合のためのテクスチュアル・セマンティック・ガイダンスを提案する。
論文 参考訳(メタデータ) (2025-06-20T03:53:07Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion [26.809259323430368]
そこで本研究では,テキストIF(Text-IF)と呼ばれる画像融合タスクにおいて,意味的テキスト誘導画像融合モデルを活用する新しい手法を提案する。
テキストIFは、オールインワンの赤外線および可視画像劣化認識処理およびインタラクティブなフレキシブル融合結果にアクセスできる。
このように、Text-IFはマルチモーダル画像融合だけでなく、マルチモーダル情報融合も実現している。
論文 参考訳(メタデータ) (2024-03-25T03:06:45Z) - Image Fusion via Vision-Language Model [91.36809431547128]
VIsion-Language Model (FILM)による画像融合という新しい融合パラダイムを導入する。
FILMは画像からセマンティックプロンプトを生成し、それらをChatGPTに入力し、包括的なテキスト記述を行う。
これらの記述はテキスト領域内で融合され、視覚情報融合を導く。
FILMは、赤外線可視、医療、マルチ露光、マルチフォーカス画像融合の4つの画像融合タスクにおいて有望な結果を示している。
論文 参考訳(メタデータ) (2024-02-03T18:36:39Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - TextFusion: Unveiling the Power of Textual Semantics for Controllable
Image Fusion [38.61215361212626]
本稿では,高度な画像融合のためのテキスト誘導融合パラダイムを提案する。
テキスト注釈付き画像融合データセットIVTをリリースする。
我々のアプローチは、従来の外見に基づく融合法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-12-21T09:25:10Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。