論文の概要: IVGF: The Fusion-Guided Infrared and Visible General Framework
- arxiv url: http://arxiv.org/abs/2409.00973v2
- Date: Sat, 14 Sep 2024 15:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 22:48:25.641855
- Title: IVGF: The Fusion-Guided Infrared and Visible General Framework
- Title(参考訳): IVGF:Fusion-Guided Infrared and Visible General Framework
- Authors: Fangcen Liu, Chenqiang Gao, Fang Chen, Pengcheng Li, Junjie Guo, Deyu Meng,
- Abstract要約: 赤外および可視の両モードタスクは、相補的な情報を融合することで、極端な場面でも堅牢なパフォーマンスを達成することができる。
我々は、多くの高レベル視覚タスクに容易に拡張可能な、統合誘導型赤外線可視光一般フレームワークIVGFを提案する。
- 参考スコア(独自算出の注目度): 41.07925395888705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared and visible dual-modality tasks such as semantic segmentation and object detection can achieve robust performance even in extreme scenes by fusing complementary information. Most current methods design task-specific frameworks, which are limited in generalization across multiple tasks. In this paper, we propose a fusion-guided infrared and visible general framework, IVGF, which can be easily extended to many high-level vision tasks. Firstly, we adopt the SOTA infrared and visible foundation models to extract the general representations. Then, to enrich the semantics information of these general representations for high-level vision tasks, we design the feature enhancement module and token enhancement module for feature maps and tokens, respectively. Besides, the attention-guided fusion module is proposed for effectively fusing by exploring the complementary information of two modalities. Moreover, we also adopt the cutout&mix augmentation strategy to conduct the data augmentation, which further improves the ability of the model to mine the regional complementary between the two modalities. Extensive experiments show that the IVGF outperforms state-of-the-art dual-modality methods in the semantic segmentation and object detection tasks. The detailed ablation studies demonstrate the effectiveness of each module, and another experiment explores the anti-missing modality ability of the proposed method in the dual-modality semantic segmentation task.
- Abstract(参考訳): セマンティックセグメンテーション(セグメンテーション)やオブジェクト検出(オブジェクト検出)といった、赤外線および可視光二重モードタスクは、相補的な情報を融合することにより、極端な場面でも堅牢な性能を達成することができる。
現在のほとんどのメソッドは、複数のタスクにまたがる一般化に制限があるタスク固有のフレームワークを設計している。
本稿では、多くの高レベル視覚タスクに容易に拡張可能な、融合誘導型赤外線可視光一般フレームワークIVGFを提案する。
まず、一般表現を抽出するために、SOTA赤外線および可視基盤モデルを採用する。
そして,高次視覚タスクにおけるこれらの汎用表現のセマンティクス情報を強化するために,特徴マップとトークンのための特徴拡張モジュールとトークン拡張モジュールをそれぞれ設計する。
さらに,2つのモードの相補的な情報を探究し,効果的に融合するための注意誘導核融合モジュールを提案する。
さらに,データ拡張を行うために,カットアウト/ミックス拡張戦略を採用することで,モデルが2つのモダリティ間の地域相補性をマイニングする能力をさらに向上する。
広範囲な実験により、IVGFはセマンティックセグメンテーションやオブジェクト検出タスクにおいて、最先端のデュアルモダリティ手法よりも優れていることが示された。
詳細なアブレーション研究は各モジュールの有効性を実証し、別の実験では、二重モードセマンティックセマンティックセグメンテーションタスクにおいて提案手法の欠落防止能力について検討している。
関連論文リスト
- Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion [41.34335755315773]
マルチモダリティ画像融合は、2つのソース画像から特定のモダリティ情報と共有モダリティ情報を融合することを目的としている。
本稿では,3分岐エンコーダデコーダアーキテクチャと,それに対応する融合層を融合戦略として提案する。
可視・近赤外画像融合および医用画像融合タスクにおける最先端手法と比較して,本手法は競争力のある結果を得た。
論文 参考訳(メタデータ) (2024-06-11T09:32:40Z) - Dual-modal Prior Semantic Guided Infrared and Visible Image Fusion for Intelligent Transportation System [22.331591533400402]
インテリジェントトランスポートシステム(ITS)における赤外線および可視画像融合(IVF)の役割
本稿では,2つのモーダリティ戦略に基づく先行的意味誘導画像融合法を提案する。
論文 参考訳(メタデータ) (2024-03-24T16:41:50Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - Bi-level Dynamic Learning for Jointly Multi-modality Image Fusion and
Beyond [50.556961575275345]
補完特性とカスケード二重タスク関連モジュールを融合する画像融合モジュールを構築した。
本研究では, 高速な1次近似により対応する勾配を計算し, 融合学習のための勾配のバランスをとるための動的重み付けアグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-05-11T10:55:34Z) - Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of
Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。
次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。
最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文 参考訳(メタデータ) (2022-06-21T17:40:55Z) - One for All: An End-to-End Compact Solution for Hand Gesture Recognition [8.321276216978637]
本稿では,手動ジェスチャー認識のための細粒度特徴注意ネットワーク(Fit-Hand)をエンド・ツー・エンドのコンパクトCNNフレームワークとして提案する。
提案されたアーキテクチャのパイプラインは、FineFeatモジュールと拡張畳み込み層(Conv)の2つの主要なユニットで構成されています。
Fit-Handの有効性は、7つのベンチマークデータセット上の主観依存(SD)および主観独立(SI)検証セットアップを使用して評価される。
論文 参考訳(メタデータ) (2021-05-15T05:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。