論文の概要: MultiTaskVIF: Segmentation-oriented visible and infrared image fusion via multi-task learning
- arxiv url: http://arxiv.org/abs/2505.06665v1
- Date: Sat, 10 May 2025 14:47:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.975776
- Title: MultiTaskVIF: Segmentation-oriented visible and infrared image fusion via multi-task learning
- Title(参考訳): MultiTaskVIF:マルチタスク学習によるセグメンテーション指向の可視・赤外画像融合
- Authors: Zixian Zhao, Andrew Howes, Xingchen Zhang,
- Abstract要約: セグメンテーション指向VIFモデルのための簡潔で普遍的なトレーニングフレームワークであるMultiTaskVIFを提案する。
本稿では,マルチタスクヘッドデコーダ(MTH)を導入し,融合画像とトレーニング中のセグメンテーション結果の両方を同時に出力する。
- 参考スコア(独自算出の注目度): 17.67073665165365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visible and infrared image fusion (VIF) has attracted significant attention in recent years. Traditional VIF methods primarily focus on generating fused images with high visual quality, while recent advancements increasingly emphasize incorporating semantic information into the fusion model during training. However, most existing segmentation-oriented VIF methods adopt a cascade structure comprising separate fusion and segmentation models, leading to increased network complexity and redundancy. This raises a critical question: can we design a more concise and efficient structure to integrate semantic information directly into the fusion model during training-Inspired by multi-task learning, we propose a concise and universal training framework, MultiTaskVIF, for segmentation-oriented VIF models. In this framework, we introduce a multi-task head decoder (MTH) to simultaneously output both the fused image and the segmentation result during training. Unlike previous cascade training frameworks that necessitate joint training with a complete segmentation model, MultiTaskVIF enables the fusion model to learn semantic features by simply replacing its decoder with MTH. Extensive experimental evaluations validate the effectiveness of the proposed method. Our code will be released upon acceptance.
- Abstract(参考訳): 近年,可視・赤外線画像融合(VIF)が注目されている。
従来のVIF法は主に視覚的品質の高い融合画像の生成に重点を置いているが、最近の進歩は、訓練中に融合モデルに意味情報を組み込むことを強調している。
しかし、既存のセグメンテーション指向VIF法の多くは、別々の融合モデルとセグメンテーションモデルからなるカスケード構造を採用しており、ネットワークの複雑さと冗長性を高めている。
マルチタスク学習にヒントを得て,セグメンテーション指向のVIFモデルのための簡潔で普遍的なトレーニングフレームワークであるMultiTaskVIFを提案する。
本稿では,マルチタスクヘッドデコーダ(MTH)を導入し,融合画像とトレーニング中のセグメンテーション結果の両方を同時に出力する。
完全なセグメンテーションモデルで共同トレーニングを必要とする従来のカスケードトレーニングフレームワークとは異なり、MultiTaskVIFは、デコーダをMTHに置き換えることで、融合モデルが意味的特徴を学習できるようにする。
提案手法の有効性を実験的に検証した。
私たちのコードは受け入れ次第解放されます。
関連論文リスト
- Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Interpretable Small Training Set Image Segmentation Network Originated
from Multi-Grid Variational Model [5.283735137946097]
深層学習法 (DL) が提案され, 画像分割に広く利用されている。
DLメソッドは通常、トレーニングデータとして大量の手動セグメントデータを必要とし、解釈性に乏しい。
本稿では,MSモデルにおける手作り正則項をデータ適応型一般化可学習正則項に置き換える。
論文 参考訳(メタデータ) (2023-06-25T02:34:34Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - TransFuse: A Unified Transformer-based Image Fusion Framework using
Self-supervised Learning [5.849513679510834]
画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。
2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。
本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T07:30:44Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。