論文の概要: FusionCounting: Robust visible-infrared image fusion guided by crowd counting via multi-task learning
- arxiv url: http://arxiv.org/abs/2508.20817v1
- Date: Thu, 28 Aug 2025 14:15:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.442374
- Title: FusionCounting: Robust visible-infrared image fusion guided by crowd counting via multi-task learning
- Title(参考訳): FusionCounting:マルチタスク学習による群衆カウントによる可視赤外画像融合のロバスト化
- Authors: He Li, Xinyu Liu, Weihang Kong, Xingchen Zhang,
- Abstract要約: 多くの可視・赤外線画像融合(VIF)法は、主に融合画像の品質を最適化することに焦点を当てている。
近年, セマンティックセグメンテーションやオブジェクト検出などの下流タスクを組み込んで, VIFのセマンティックガイダンスを提供する研究が進められている。
群衆カウントをVIFプロセスに統合する新しいマルチタスク学習フレームワークFusionCountingを提案する。
- 参考スコア(独自算出の注目度): 16.955260249719533
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most visible and infrared image fusion (VIF) methods focus primarily on optimizing fused image quality. Recent studies have begun incorporating downstream tasks, such as semantic segmentation and object detection, to provide semantic guidance for VIF. However, semantic segmentation requires extensive annotations, while object detection, despite reducing annotation efforts compared with segmentation, faces challenges in highly crowded scenes due to overlapping bounding boxes and occlusion. Moreover, although RGB-T crowd counting has gained increasing attention in recent years, no studies have integrated VIF and crowd counting into a unified framework. To address these challenges, we propose FusionCounting, a novel multi-task learning framework that integrates crowd counting into the VIF process. Crowd counting provides a direct quantitative measure of population density with minimal annotation, making it particularly suitable for dense scenes. Our framework leverages both input images and population density information in a mutually beneficial multi-task design. To accelerate convergence and balance tasks contributions, we introduce a dynamic loss function weighting strategy. Furthermore, we incorporate adversarial training to enhance the robustness of both VIF and crowd counting, improving the model's stability and resilience to adversarial attacks. Experimental results on public datasets demonstrate that FusionCounting not only enhances image fusion quality but also achieves superior crowd counting performance.
- Abstract(参考訳): 多くの可視・赤外線画像融合(VIF)法は、主に融合画像の品質を最適化することに焦点を当てている。
近年, セマンティックセグメンテーションやオブジェクト検出などの下流タスクを組み込んで, VIFのセマンティックガイダンスを提供する研究が進められている。
しかし、セマンティックセグメンテーションは広範なアノテーションを必要とするが、オブジェクト検出はセグメンテーションと比較してアノテーションの労力を減らしているが、バウンディングボックスとオクルージョンが重複しているため、非常に混み合ったシーンで課題に直面している。
さらに, 近年, RGB-T 群集カウントが注目されているが, VIF や 群集カウントを統一フレームワークに統合する研究は行われていない。
これらの課題に対処するために,VIFプロセスに群衆カウントを統合する新しいマルチタスク学習フレームワークFusionCountingを提案する。
群衆カウントは、最小限のアノテーションで人口密度を直接測定し、特に密集したシーンに適している。
本フレームワークは, 相互に有用なマルチタスク設計において, 入力画像と人口密度情報の両方を活用する。
収束とタスクのバランスをとるために,動的損失関数重み付け戦略を導入する。
さらに,対戦訓練を取り入れて,VIFとクラウドカウントの堅牢性を向上し,対戦攻撃に対するモデルの安定性とレジリエンスを向上させる。
公開データセットによる実験結果から,FusionCountingは画像融合品質を高めるだけでなく,群衆カウント性能も向上することが示された。
関連論文リスト
- MultiTaskVIF: Segmentation-oriented visible and infrared image fusion via multi-task learning [17.67073665165365]
セグメンテーション指向VIFモデルのための簡潔で普遍的なトレーニングフレームワークであるMultiTaskVIFを提案する。
本稿では,マルチタスクヘッドデコーダ(MTH)を導入し,融合画像とトレーニング中のセグメンテーション結果の両方を同時に出力する。
論文 参考訳(メタデータ) (2025-05-10T14:47:19Z) - OCCO: LVM-guided Infrared and Visible Image Fusion Framework based on Object-aware and Contextual COntrastive Learning [19.22887628187884]
オブジェクト認識とコンテキスト協調学習を備えた新しいLVM誘導型融合フレームワークを提案する。
また、モダリティ差による融合画像における情報衝突を解決するために、新しい特徴相互作用融合ネットワークを設計する。
提案手法の有効性を検証し、下流視覚課題においても例外的な性能を示す。
論文 参考訳(メタデータ) (2025-03-24T12:57:23Z) - Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。
具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。
本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文 参考訳(メタデータ) (2025-03-03T06:16:31Z) - Infrared and Visible Image Fusion: From Data Compatibility to Task Adaption [65.06388526722186]
赤外線可視画像融合はコンピュータビジョンにおいて重要な課題である。
この急成長する領域に対処する、最近の包括的な調査が欠如している。
本稿では,共通学習に基づくIVIF手法の解明のための多次元フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-18T13:17:34Z) - Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。
MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。
MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文 参考訳(メタデータ) (2025-01-18T11:57:20Z) - A Clustering-guided Contrastive Fusion for Multi-view Representation
Learning [7.630965478083513]
本稿では、ビュー固有表現をビュー共通表現に融合する深層融合ネットワークを提案する。
また、ビュー共通表現とビュー固有表現を一致させる非対称なコントラスト戦略を設計する。
不完全な視点では,提案手法は競合相手よりもノイズ干渉に抵抗する。
論文 参考訳(メタデータ) (2022-12-28T07:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。