論文の概要: SSVIF: Self-Supervised Segmentation-Oriented Visible and Infrared Image Fusion
- arxiv url: http://arxiv.org/abs/2509.22450v1
- Date: Fri, 26 Sep 2025 15:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.530769
- Title: SSVIF: Self-Supervised Segmentation-Oriented Visible and Infrared Image Fusion
- Title(参考訳): SSVIF: 自己監督型セグメンテーション指向可視・赤外線画像融合
- Authors: Zixian Zhao, Xingchen Zhang,
- Abstract要約: セグメンテーション指向型VIF法(SSVIF)のための自己教師型トレーニングフレームワークを提案する。
本稿では, セグメンテーションラベルの監督なしに, 融合モデルで高レベルのセグメンテーション特徴を学習することのできる, 自己教師型タスククロスセグメンテーション整合性を導入する。
提案するSSVIFは従来のVIF法と競合するセグメンテーション指向の手法より優れている。
- 参考スコア(独自算出の注目度): 8.61849023109742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visible and infrared image fusion (VIF) has gained significant attention in recent years due to its wide application in tasks such as scene segmentation and object detection. VIF methods can be broadly classified into traditional VIF methods and application-oriented VIF methods. Traditional methods focus solely on improving the quality of fused images, while application-oriented VIF methods additionally consider the performance of downstream tasks on fused images by introducing task-specific loss terms during training. However, compared to traditional methods, application-oriented VIF methods require datasets labeled for downstream tasks (e.g., semantic segmentation or object detection), making data acquisition labor-intensive and time-consuming. To address this issue, we propose a self-supervised training framework for segmentation-oriented VIF methods (SSVIF). Leveraging the consistency between feature-level fusion-based segmentation and pixel-level fusion-based segmentation, we introduce a novel self-supervised task-cross-segmentation consistency-that enables the fusion model to learn high-level semantic features without the supervision of segmentation labels. Additionally, we design a two-stage training strategy and a dynamic weight adjustment method for effective joint learning within our self-supervised framework. Extensive experiments on public datasets demonstrate the effectiveness of our proposed SSVIF. Remarkably, although trained only on unlabeled visible-infrared image pairs, our SSVIF outperforms traditional VIF methods and rivals supervised segmentation-oriented ones. Our code will be released upon acceptance.
- Abstract(参考訳): 視覚的・赤外線画像融合(VIF)は,シーンセグメンテーションや物体検出といったタスクに広く応用されているため,近年注目されている。
VIF法は、従来のVIF法とアプリケーション指向のVIF法に広く分類することができる。
従来の方法では、融合画像の品質向上にのみ重点を置いているが、アプリケーション指向のVIF法では、訓練中にタスク固有の損失項を導入することにより、融合画像上の下流タスクのパフォーマンスも考慮している。
しかし、従来の手法と比較して、アプリケーション指向のVIF手法は下流タスク(セマンティックセグメンテーションやオブジェクト検出など)にラベル付けされたデータセットを必要とするため、データ取得は労働集約的で時間を要する。
そこで本研究では,セグメンテーション指向型VIF法(SSVIF)のための自己教師型トレーニングフレームワークを提案する。
特徴レベルの融合に基づくセグメンテーションと画素レベルの融合に基づくセグメンテーションの整合性を活用し,新たな自己教師型タスククロスセグメンテーションの整合性を導入する。
さらに,自己指導型フレームワーク内での効果的な共同学習のための2段階学習戦略と動的重み調整手法を設計する。
公開データセットに対する大規模な実験により,提案したSSVIFの有効性が示された。
注目すべきは、ラベルなしの可視赤外画像対にのみトレーニングされているにも関わらず、SSVIFは従来のVIF法と競合するセグメンテーション指向の手法よりも優れています。
私たちのコードは受け入れ次第解放されます。
関連論文リスト
- FusionCounting: Robust visible-infrared image fusion guided by crowd counting via multi-task learning [16.955260249719533]
可視・赤外線画像融合(VIF)はコンピュータビジョンにおいて重要なマルチメディアタスクである。
近年, セマンティックセグメンテーションやオブジェクト検出などの下流タスクを組み込んで, VIFのセマンティックガイダンスを提供する研究が進められている。
群衆カウントをVIFプロセスに統合する新しいマルチタスク学習フレームワークFusionCountingを提案する。
論文 参考訳(メタデータ) (2025-08-28T14:15:18Z) - SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion [65.80051636480836]
本稿では,Segment Anything Model(SAM)によって導かれる条件拡散モデルを提案する。
このフレームワークは2段階のプロセスで動作し、まずマルチモーダルな特徴の予備的な融合を行い、その後、拡散モデルの粗大な分極生成を駆動する条件としてセマンティックマスクを利用する。
SGDFuseは主観的評価と客観的評価の両方において最先端の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-08-07T10:58:52Z) - AceVFI: A Comprehensive Survey of Advances in Video Frame Interpolation [8.563354084119062]
ビデオフレーム補間(VFI)は、既存のフレーム間で中間フレームを合成する基本的な低レベルビジョン(LLV)タスクである。
これまでにVFIに関する最も包括的な調査であるAceVFIを紹介します。
中心時間フレーム補間(CTFI)と任意時間フレーム補間(ATFI)の学習パラダイムを分類する。
論文 参考訳(メタデータ) (2025-06-01T16:01:24Z) - MultiTaskVIF: Segmentation-oriented visible and infrared image fusion via multi-task learning [17.67073665165365]
セグメンテーション指向VIFモデルのための簡潔で普遍的なトレーニングフレームワークであるMultiTaskVIFを提案する。
本稿では,マルチタスクヘッドデコーダ(MTH)を導入し,融合画像とトレーニング中のセグメンテーション結果の両方を同時に出力する。
論文 参考訳(メタデータ) (2025-05-10T14:47:19Z) - Rethinking the Evaluation of Visible and Infrared Image Fusion [39.53356881392218]
Visible と Infrared Image Fusion (VIF) は、様々な高度な視覚タスクにおいて大きな関心を集めている。
本稿では, セマンティック指向評価手法 (SEA) を提案する。
論文 参考訳(メタデータ) (2024-10-09T12:12:08Z) - Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - A Novel Benchmark for Few-Shot Semantic Segmentation in the Era of Foundation Models [7.428199805959228]
Few-shot semantic segmentation (FSS) はコンピュータビジョンにおいて重要な課題である。
一般化的特徴抽出器としての視覚基盤モデル(VFM)の出現に伴い,これらのモデルをFSSに適用することを模索する。
本稿では,このタスクに適した単純で簡単な適応プロセスを備えた,新しい現実的なベンチマークを提案する。
論文 参考訳(メタデータ) (2024-01-20T19:50:51Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。