論文の概要: TSJNet: A Multi-modality Target and Semantic Awareness Joint-driven
Image Fusion Network
- arxiv url: http://arxiv.org/abs/2402.01212v1
- Date: Fri, 2 Feb 2024 08:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 16:28:27.885928
- Title: TSJNet: A Multi-modality Target and Semantic Awareness Joint-driven
Image Fusion Network
- Title(参考訳): TSJNet:マルチモーダルターゲットとセマンティックアウェアネスを併用した画像融合ネットワーク
- Authors: Yuchan Jie, Yushen Xu, Xiaosong Li, Haishu Tan
- Abstract要約: 我々は、TSJNetと呼ばれるターゲットおよびセマンティック・アウェアネス駆動型核融合ネットワークを導入する。
一連の構造に配置された核融合、検出、セグメンテーションを含む。
視覚的に快く融合した結果を生成することができ、それぞれ2.84%と7.47%のオブジェクト検出とセグメンテーションのmAP @0.5とmIoUが平均的に増加する。
- 参考スコア(独自算出の注目度): 2.7387720378113554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modality image fusion involves integrating complementary information
from different modalities into a single image. Current methods primarily focus
on enhancing image fusion with a single advanced task such as incorporating
semantic or object-related information into the fusion process. This method
creates challenges in achieving multiple objectives simultaneously. We
introduce a target and semantic awareness joint-driven fusion network called
TSJNet. TSJNet comprises fusion, detection, and segmentation subnetworks
arranged in a series structure. It leverages object and semantically relevant
information derived from dual high-level tasks to guide the fusion network.
Additionally, We propose a local significant feature extraction module with a
double parallel branch structure to fully capture the fine-grained features of
cross-modal images and foster interaction among modalities, targets, and
segmentation information. We conducted extensive experiments on four publicly
available datasets (MSRS, M3FD, RoadScene, and LLVIP). The results demonstrate
that TSJNet can generate visually pleasing fused results, achieving an average
increase of 2.84% and 7.47% in object detection and segmentation mAP @0.5 and
mIoU, respectively, compared to the state-of-the-art methods.
- Abstract(参考訳): マルチモダリティ画像融合は、異なるモダリティからの補完情報を単一の画像に統合する。
現在の手法は主に、画像融合プロセスにセマンティックやオブジェクト関連の情報を組み込むような、単一の高度なタスクで画像融合を強化することに重点を置いている。
この方法は複数の目標を同時に達成する上での課題を生み出す。
我々はTSJNetと呼ばれる目標と意味意識の融合ネットワークを導入する。
TSJNetは、シリーズ構造に配置された融合、検出、セグメンテーションサブネットワークを含む。
2つのハイレベルなタスクから派生したオブジェクトとセマンティックな関連情報を活用して、融合ネットワークを誘導する。
さらに,クロスモーダル画像のきめ細かい特徴を完全に把握し,モダリティ,ターゲット,セグメンテーション情報間のインタラクションを促進するために,二重並列分岐構造を持つ局所的な特徴抽出モジュールを提案する。
4つの公開データセット(MSRS,M3FD,RoadScene,LLVIP)について広範な実験を行った。
その結果、TSJNetは、最先端の手法と比較して、オブジェクト検出とセグメンテーションのmAP @0.5とmIoUの平均2.84%と7.47%の増加を達成できる、視覚的に快く融合した結果を生成できることを示した。
関連論文リスト
- SAM-REF: Rethinking Image-Prompt Synergy for Refinement in Segment Anything [14.937761564543239]
画像とプロンプトを完全に統合し,グローバルかつローカルにプロンプトする2段階改良フレームワークを提案する。
第一段階のGlobalDiff Refinerは、画像全体とプロンプトを組み合わせた軽量のアーリーフュージョンネットワークだ。
第2ステージのPatchDiff Refinerは、マスクに従ってオブジェクトの詳細ウィンドウを特定してプロンプトし、オブジェクトのローカル詳細を洗練します。
論文 参考訳(メタデータ) (2024-08-21T11:18:35Z) - A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion [41.34335755315773]
マルチモダリティ画像融合は、2つのソース画像から特定のモダリティ情報と共有モダリティ情報を融合することを目的としている。
本稿では,3分岐エンコーダデコーダアーキテクチャと,それに対応する融合層を融合戦略として提案する。
可視・近赤外画像融合および医用画像融合タスクにおける最先端手法と比較して,本手法は競争力のある結果を得た。
論文 参考訳(メタデータ) (2024-06-11T09:32:40Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。