論文の概要: SFA-UNet: More Attention to Multi-Scale Contrast and Contextual Information in Infrared Small Object Segmentation
- arxiv url: http://arxiv.org/abs/2410.22881v1
- Date: Wed, 30 Oct 2024 10:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:28:40.062345
- Title: SFA-UNet: More Attention to Multi-Scale Contrast and Contextual Information in Infrared Small Object Segmentation
- Title(参考訳): SFA-UNet:赤外小物体セグメンテーションにおけるマルチスケールコントラストとコンテキスト情報へのさらなる注意
- Authors: Imad Ali Shah, Fahad Mumtaz Malik, Muhammad Waqas Ashraf,
- Abstract要約: 赤外線小オブジェクト(ISOS)は、いくつかの課題のために、依然として大きな焦点をあてています。
Scharr Convolution (SC) と Fast Fourier Convolution (FFC) を組み合わせることで,垂直および水平のアテンションゲート (AG) を UNet に組み込むことにより,SFA-UNet という改良されたU-Netアーキテクチャを提案する。
SCは、背景から背景までのコントラスト情報を学ぶのに役立ち、FFCは、小さなオブジェクトが消える問題を緩和しながら、マルチスケールのコンテキスト情報を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Computer vision researchers have extensively worked on fundamental infrared visual recognition for the past few decades. Among various approaches, deep learning has emerged as the most promising candidate. However, Infrared Small Object Segmentation (ISOS) remains a major focus due to several challenges including: 1) the lack of effective utilization of local contrast and global contextual information; 2) the potential loss of small objects in deep models; and 3) the struggling to capture fine-grained details and ignore noise. To address these challenges, we propose a modified U-Net architecture, named SFA-UNet, by combining Scharr Convolution (SC) and Fast Fourier Convolution (FFC) in addition to vertical and horizontal Attention gates (AG) into UNet. SFA-UNet utilizes double convolution layers with the addition of SC and FFC in its encoder and decoder layers. SC helps to learn the foreground-to-background contrast information whereas FFC provide multi-scale contextual information while mitigating the small objects vanishing problem. Additionally, the introduction of vertical AGs in encoder layers enhances the model's focus on the targeted object by ignoring irrelevant regions. We evaluated the proposed approach on publicly available, SIRST and IRSTD datasets, and achieved superior performance by an average 0.75% with variance of 0.025 of all combined metrics in multiple runs as compared to the existing state-of-the-art methods
- Abstract(参考訳): コンピュータビジョンの研究者たちは、過去数十年にわたって、基本的な赤外線視覚認識に幅広く取り組んできた。
様々なアプローチの中で、ディープラーニングが最も有望な候補として浮上している。
しかし、赤外線小オブジェクトセグメンテーション(ISOS)は、次のようないくつかの課題のために、依然として大きな焦点をあてている。
1) 局所的コントラストとグローバルな文脈情報の有効利用の欠如
2) 深部モデルにおける小物体の潜在的な損失
3)きめ細かい細部を捉え、騒音を無視するのに苦労する人々。
これらの課題に対処するため,Scharr Convolution (SC) と Fast Fourier Convolution (FFC) を組み合わせて,垂直および水平アテンションゲート (AG) を UNet に組み込むことにより,SFA-UNet という改良されたU-Netアーキテクチャを提案する。
SFA-UNetは、エンコーダ層とデコーダ層にSCとFFCを加えた二重畳み込み層を利用する。
SCは、背景から背景までのコントラスト情報を学ぶのに役立ち、FFCは、小さなオブジェクトが消える問題を緩和しながら、マルチスケールのコンテキスト情報を提供する。
さらに、エンコーダ層に垂直AGを導入することで、無関係な領域を無視して対象対象物にフォーカスするモデルが強化される。
提案手法は, 公開されているSIRSTおよびIRSTDデータセットに対して評価し, 既存の最先端手法と比較して, 統合された指標の0.025のばらつきを伴い, 平均0.75%の優れた性能を実現した。
関連論文リスト
- Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained
Ship Classification [62.425462136772666]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - SCTransNet: Spatial-channel Cross Transformer Network for Infrared Small Target Detection [46.049401912285134]
赤外線小ターゲット検出(IRSTD)は近年,U字型ニューラルモデルから大きな恩恵を受けている。
既存のテクニックは、ターゲットが背景と高い類似性を持つ場合に苦労する。
本稿では,空間チャネルクロストランスネットワーク(SCTransNet)を提案する。
論文 参考訳(メタデータ) (2024-01-28T06:41:15Z) - ILNet: Low-level Matters for Salient Infrared Small Target Detection [5.248337726304453]
赤外線小目標検出は、赤外クラッタ背景から小目標を検出する技術である。
高レベルセマンティック情報の変形により、CNNの深い層では、小さな赤外線ターゲット特性が弱まる。
我々は、赤外線小ターゲットを意味情報が少ない有能な領域とみなす赤外線低レベルネットワーク(ILNet)を提案する。
論文 参考訳(メタデータ) (2023-09-24T14:09:37Z) - ABC: Attention with Bilinear Correlation for Infrared Small Target
Detection [4.7379300868029395]
CNNに基づく深層学習法は、赤外線小ターゲット(IRST)のセグメンテーションに有効ではない
バイリニア相関(ABC)を用いた注目モデルを提案する。
ABCはトランスアーキテクチャに基づいており、特徴抽出と融合のための新しいアテンション機構を備えた畳み込み線形核融合トランス (CLFT) モジュールを含んでいる。
論文 参考訳(メタデータ) (2023-03-18T03:47:06Z) - Local Contrast and Global Contextual Information Make Infrared Small
Object Salient Again [5.324958606516871]
赤外線小物体検出(ISOS)は、赤外画像中の乱雑な背景から、いくつかのピクセルでしかカバーされていない小さな物体を分割することを目的としている。
1) 十分な強度、形状、テクスチャ情報がない小さなオブジェクト、2) 深層ニューラルネットワークのような検出モデルが、連続的なダウンサンプリングを通じて高レベルのセマンティック特徴とイメージレベルの受容フィールドを得るプロセスにおいて、小さなオブジェクトは、容易に失われる。
本稿では,この2つの問題をうまく処理できるUCFNetと呼ばれるISOSの信頼性検出モデルを提案する。
いくつかの公開データセットの実験により、我々の手法は現状を大きく上回っていることが示された。
論文 参考訳(メタデータ) (2023-01-28T05:18:13Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding [14.896822373116729]
コントラスト的提案(FSCE)によるFew-Shotオブジェクト検出について述べる。
FSCEは、検出されたオブジェクトの分類を容易にするコントラスト認識オブジェクトエンコーディングを学ぶためのシンプルで効果的なアプローチです。
我々の設計は、任意のショットとすべてのデータにおいて現在の最先端の作業よりも優れており、標準ベンチマークPASCAL VOCでは+8.8%、挑戦ベンチマークでは+2.7%である。
論文 参考訳(メタデータ) (2021-03-10T09:15:05Z) - Suppress and Balance: A Simple Gated Network for Salient Object
Detection [89.88222217065858]
両問題を同時に解くための単純なゲートネットワーク(GateNet)を提案する。
多レベルゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに最適に送信することができる。
さらに,提案したFold-ASPP操作(Fold-ASPP)に基づくアトラス空間ピラミッドプーリングを用いて,様々なスケールのサリアンオブジェクトを正確に位置決めする。
論文 参考訳(メタデータ) (2020-07-16T02:00:53Z) - Searching Central Difference Convolutional Networks for Face
Anti-Spoofing [68.77468465774267]
顔認識システムにおいて、顔の反偽造(FAS)が重要な役割を担っている。
最先端のFASメソッドの多くは、スタック化された畳み込みと専門家が設計したネットワークに依存している。
ここでは、中央差分畳み込み(CDC)に基づくフレームレベルの新しいFAS手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T12:48:37Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。