論文の概要: TSJNet: A Multi-modality Target and Semantic Awareness Joint-driven
Image Fusion Network
- arxiv url: http://arxiv.org/abs/2402.01212v1
- Date: Fri, 2 Feb 2024 08:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 16:28:27.885928
- Title: TSJNet: A Multi-modality Target and Semantic Awareness Joint-driven
Image Fusion Network
- Title(参考訳): TSJNet:マルチモーダルターゲットとセマンティックアウェアネスを併用した画像融合ネットワーク
- Authors: Yuchan Jie, Yushen Xu, Xiaosong Li, Haishu Tan
- Abstract要約: 我々は、TSJNetと呼ばれるターゲットおよびセマンティック・アウェアネス駆動型核融合ネットワークを導入する。
一連の構造に配置された核融合、検出、セグメンテーションを含む。
視覚的に快く融合した結果を生成することができ、それぞれ2.84%と7.47%のオブジェクト検出とセグメンテーションのmAP @0.5とmIoUが平均的に増加する。
- 参考スコア(独自算出の注目度): 2.7387720378113554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modality image fusion involves integrating complementary information
from different modalities into a single image. Current methods primarily focus
on enhancing image fusion with a single advanced task such as incorporating
semantic or object-related information into the fusion process. This method
creates challenges in achieving multiple objectives simultaneously. We
introduce a target and semantic awareness joint-driven fusion network called
TSJNet. TSJNet comprises fusion, detection, and segmentation subnetworks
arranged in a series structure. It leverages object and semantically relevant
information derived from dual high-level tasks to guide the fusion network.
Additionally, We propose a local significant feature extraction module with a
double parallel branch structure to fully capture the fine-grained features of
cross-modal images and foster interaction among modalities, targets, and
segmentation information. We conducted extensive experiments on four publicly
available datasets (MSRS, M3FD, RoadScene, and LLVIP). The results demonstrate
that TSJNet can generate visually pleasing fused results, achieving an average
increase of 2.84% and 7.47% in object detection and segmentation mAP @0.5 and
mIoU, respectively, compared to the state-of-the-art methods.
- Abstract(参考訳): マルチモダリティ画像融合は、異なるモダリティからの補完情報を単一の画像に統合する。
現在の手法は主に、画像融合プロセスにセマンティックやオブジェクト関連の情報を組み込むような、単一の高度なタスクで画像融合を強化することに重点を置いている。
この方法は複数の目標を同時に達成する上での課題を生み出す。
我々はTSJNetと呼ばれる目標と意味意識の融合ネットワークを導入する。
TSJNetは、シリーズ構造に配置された融合、検出、セグメンテーションサブネットワークを含む。
2つのハイレベルなタスクから派生したオブジェクトとセマンティックな関連情報を活用して、融合ネットワークを誘導する。
さらに,クロスモーダル画像のきめ細かい特徴を完全に把握し,モダリティ,ターゲット,セグメンテーション情報間のインタラクションを促進するために,二重並列分岐構造を持つ局所的な特徴抽出モジュールを提案する。
4つの公開データセット(MSRS,M3FD,RoadScene,LLVIP)について広範な実験を行った。
その結果、TSJNetは、最先端の手法と比較して、オブジェクト検出とセグメンテーションのmAP @0.5とmIoUの平均2.84%と7.47%の増加を達成できる、視覚的に快く融合した結果を生成できることを示した。
関連論文リスト
- From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - CMF: Cascaded Multi-model Fusion for Referring Image Segmentation [24.942658173937563]
本稿では,自然言語表現によって記述された対象に対するセグメンテーションマスクの予測を目的とした画像セグメンテーション(RIS)の課題に対処する。
本稿では,マルチモーダル・フュージョン (CMF) モジュールを提案する。
4つのベンチマークデータセットによる実験結果から,本手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-16T08:18:39Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。