論文の概要: UNIP: Rethinking Pre-trained Attention Patterns for Infrared Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2502.02257v1
- Date: Tue, 04 Feb 2025 12:08:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:58:58.500634
- Title: UNIP: Rethinking Pre-trained Attention Patterns for Infrared Semantic Segmentation
- Title(参考訳): UNIP:赤外線セマンティックセグメンテーションのためのトレーニング済み注意パターンの再考
- Authors: Tao Zhang, Jinyong Wen, Zhen Chen, Kun Ding, Shiming Xiang, Chunhong Pan,
- Abstract要約: 我々は、事前学習モデルの性能を高めるために、統一赤外線事前学習フレームワークUNIPを提案する。
UNIPは,3つの赤外線セグメンテーションタスクにおいて,平均mIoUの13.5%の事前学習方法よりも優れることを示す。
UNIP-Sは、計算コストの1/10しか必要とせず、MAE-Lと同等の性能を達成する。
- 参考スコア(独自算出の注目度): 43.23941147902801
- License:
- Abstract: Pre-training techniques significantly enhance the performance of semantic segmentation tasks with limited training data. However, the efficacy under a large domain gap between pre-training (e.g. RGB) and fine-tuning (e.g. infrared) remains underexplored. In this study, we first benchmark the infrared semantic segmentation performance of various pre-training methods and reveal several phenomena distinct from the RGB domain. Next, our layerwise analysis of pre-trained attention maps uncovers that: (1) There are three typical attention patterns (local, hybrid, and global); (2) Pre-training tasks notably influence the pattern distribution across layers; (3) The hybrid pattern is crucial for semantic segmentation as it attends to both nearby and foreground elements; (4) The texture bias impedes model generalization in infrared tasks. Building on these insights, we propose UNIP, a UNified Infrared Pre-training framework, to enhance the pre-trained model performance. This framework uses the hybrid-attention distillation NMI-HAD as the pre-training target, a large-scale mixed dataset InfMix for pre-training, and a last-layer feature pyramid network LL-FPN for fine-tuning. Experimental results show that UNIP outperforms various pre-training methods by up to 13.5\% in average mIoU on three infrared segmentation tasks, evaluated using fine-tuning and linear probing metrics. UNIP-S achieves performance on par with MAE-L while requiring only 1/10 of the computational cost. Furthermore, UNIP significantly surpasses state-of-the-art (SOTA) infrared or RGB segmentation methods and demonstrates broad potential for application in other modalities, such as RGB and depth. Our code is available at https://github.com/casiatao/UNIP.
- Abstract(参考訳): 事前学習技術は訓練データに制限のあるセグメンテーションタスクの性能を大幅に向上させる。
しかし、事前訓練(eg RGB)と微調整(eg infrared)の間に大きな領域ギャップがある場合の効果は未解明のままである。
本研究では,まず,様々な事前学習手法の赤外線セマンティックセマンティックセマンティクス性能をベンチマークし,RGB領域とは異なるいくつかの現象を明らかにする。
次に,事前学習された注意図の階層的分析により,(1)3つの典型的な注意パターン(局所的,ハイブリッド的,グローバル的)が存在すること,(2)レイヤ間のパターン分布に顕著な事前学習タスクがあること,(3)近辺および前景の要素に付随するようなセマンティックセグメンテーションにはハイブリッドパターンが不可欠であること,(4)テクスチャバイアスが赤外線タスクのモデル一般化を妨げること,などが明らかになった。
これらの知見に基づいて、トレーニング済みモデルの性能を高めるために、UNIP(Unified Infrared Pre-Training framework)を提案する。
本フレームワークは、事前学習対象としてハイブリッドアテンション蒸留NMI-HAD、事前学習用大規模混合データセットInfMix、微調整用最終層特徴ピラミッドネットワークLL-FPNを用いる。
実験結果から、UNIPは3つの赤外線セグメンテーションタスクにおいて平均mIoUを最大13.5\%向上させ、微調整と線形探索の指標を用いて評価した。
UNIP-Sは、計算コストの1/10しか必要とせず、MAE-Lと同等の性能を達成する。
さらに、UNIPは最先端(SOTA)赤外線またはRGBセグメンテーション法を大幅に超え、RGBやDepthなどの他のモードでの応用の可能性を示している。
私たちのコードはhttps://github.com/casiatao/UNIP.comで公開されています。
関連論文リスト
- Tensor Factorization for Leveraging Cross-Modal Knowledge in
Data-Constrained Infrared Object Detection [22.60228799622782]
赤外線画像における物体検出のボトルネックは、十分なラベル付きトレーニングデータがないことである。
我々は、RGBモードにおけるモデル性能を保ちながら、RGBモードからオブジェクト検出器をIRモードにスケールするために、RGBモードからの手がかりを活用しようとしている。
まず、これらの因子行列をRGBモードで事前トレーニングし、多くのトレーニングデータが存在すると仮定した後、IRモードでトレーニングするためのトレーニング可能なパラメータをわずかに増やして過度な適合を避ける。
論文 参考訳(メタデータ) (2023-09-28T16:55:52Z) - Multi-Modal Hybrid Learning and Sequential Training for RGB-T Saliency
Detection [10.589062261564631]
RGB-Tサリエンシ検出は、暗黒環境のような困難な場面で顕著な物体を識別する重要なコンピュータビジョンタスクとして登場した。
既存の手法では、クロスモーダルの特徴を無視し、RGBと熱的特徴を融合させるネットワーク構造のみに依存している。
まず、教師付きおよび自己教師付き損失関数を含むマルチモーダルハイブリッド損失(MMHL)を提案する。
論文 参考訳(メタデータ) (2023-09-13T20:47:29Z) - Frequency Disentangled Learning for Segmentation of Midbrain Structures
from Quantitative Susceptibility Mapping Data [1.9150304734969674]
深層モデルでは、ターゲット関数を低周波数から高周波数に適合させる傾向がある。
ディープセグメンテーションモデルのトレーニングに十分なサンプルがない場合が多い。
周波数領域の絡み合いに基づく新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-02-25T04:30:11Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - Self-Ensembling GAN for Cross-Domain Semantic Segmentation [107.27377745720243]
本稿では,セマンティックセグメンテーションのためのクロスドメインデータを利用した自己理解型生成逆数ネットワーク(SE-GAN)を提案する。
SE-GANでは、教師ネットワークと学生ネットワークは、意味分節マップを生成するための自己組織化モデルを構成する。
その単純さにもかかわらず、SE-GANは敵の訓練性能を大幅に向上させ、モデルの安定性を高めることができる。
論文 参考訳(メタデータ) (2021-12-15T09:50:25Z) - GradSign: Model Performance Inference with Theoretical Insights [2.4112990554464235]
理論的な洞察を伴うモデル性能推定のための正確でシンプルで柔軟な指標であるGradSignを提案する。
我々はGradSignが現実世界のネットワークによく適応し、Spearman's rho と Kendall's Tau によって評価された MPI の最先端勾配に基づく手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2021-10-16T17:03:10Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Boundary-assisted Region Proposal Networks for Nucleus Segmentation [89.69059532088129]
大量の核が混在しているため、機械学習モデルはうまく機能しない。
我々は、堅牢なインスタンスレベルの核分割を実現する境界支援領域提案ネットワーク(BRP-Net)を考案する。
論文 参考訳(メタデータ) (2020-06-04T08:26:38Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。