論文の概要: Unleashing the Power of Generic Segmentation Models: A Simple Baseline for Infrared Small Target Detection
- arxiv url: http://arxiv.org/abs/2409.04714v1
- Date: Sat, 7 Sep 2024 05:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 21:01:36.896823
- Title: Unleashing the Power of Generic Segmentation Models: A Simple Baseline for Infrared Small Target Detection
- Title(参考訳): ジェネリックセグメンテーションモデルのパワーを解放する:赤外小ターゲット検出のためのシンプルなベースライン
- Authors: Mingjin Zhang, Chi Zhang, Qiming Zhang, Yunsong Li, Xinbo Gao, Jing Zhang,
- Abstract要約: 本稿では,Segment Anything Model (SAM) などのジェネリックセグメンテーションモデルの赤外線小物体検出タスクへの適応について検討する。
提案モデルでは,既存の手法と比較して,精度とスループットの両方で性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 57.666055329221194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in deep learning have greatly advanced the field of infrared small object detection (IRSTD). Despite their remarkable success, a notable gap persists between these IRSTD methods and generic segmentation approaches in natural image domains. This gap primarily arises from the significant modality differences and the limited availability of infrared data. In this study, we aim to bridge this divergence by investigating the adaptation of generic segmentation models, such as the Segment Anything Model (SAM), to IRSTD tasks. Our investigation reveals that many generic segmentation models can achieve comparable performance to state-of-the-art IRSTD methods. However, their full potential in IRSTD remains untapped. To address this, we propose a simple, lightweight, yet effective baseline model for segmenting small infrared objects. Through appropriate distillation strategies, we empower smaller student models to outperform state-of-the-art methods, even surpassing fine-tuned teacher results. Furthermore, we enhance the model's performance by introducing a novel query design comprising dense and sparse queries to effectively encode multi-scale features. Through extensive experimentation across four popular IRSTD datasets, our model demonstrates significantly improved performance in both accuracy and throughput compared to existing approaches, surpassing SAM and Semantic-SAM by over 14 IoU on NUDT and 4 IoU on IRSTD1k. The source code and models will be released at https://github.com/O937-blip/SimIR.
- Abstract(参考訳): 近年のディープラーニングの進歩は、赤外線小物体検出(IRSTD)の分野で大きく進歩している。
その顕著な成功にもかかわらず、これらのIRSTD法と自然画像領域におけるジェネリックセグメンテーションアプローチの間には顕著なギャップが残っている。
このギャップは、主に、重要なモダリティの違いと、赤外線データの可用性の制限から生じる。
本研究では,Segment Anything Model (SAM) などのジェネリックセグメンテーションモデルをIRSTDタスクに適応させることにより,この分岐を橋渡しすることを目的とする。
本研究は,多くの汎用セグメンテーションモデルが,最先端IRSTD法に匹敵する性能を達成できることを明らかにする。
しかし、IRSTDの潜在能力は未解決のままである。
そこで本研究では,小さな赤外線オブジェクトをセグメント化するための,シンプルで軽量で効果的なベースラインモデルを提案する。
適切な蒸留戦略により、より小規模な学生モデルに最先端の手法を上回り、微調整された教師の成績を超越する力を与える。
さらに,マルチスケールな特徴を効果的にエンコードするために,厳密でスパースなクエリからなる新しいクエリ設計を導入することで,モデルの性能を向上させる。
一般的な4つのIRSTDデータセットに対する広範な実験により、既存のアプローチと比較して精度とスループットが大幅に向上し、NUDTでは14 IoU以上、IRSTD1kでは4 IoU以上であるSAMとSemantic-SAMを上回った。
ソースコードとモデルはhttps://github.com/O937-blip/SimIR.comでリリースされる。
関連論文リスト
- Effective and Efficient Adversarial Detection for Vision-Language Models via A Single Vector [97.92369017531038]
Diverse hArmful Responses (RADAR) を用いた新しい laRge-scale Adervsarial 画像データセットを構築した。
そこで我々は,視覚言語モデル (VLM) の隠れ状態から抽出した1つのベクトルを利用して,入力中の良質な画像に対して対向画像を検出する,新しいiN時間埋め込み型AdveRSarial Image Detectction (NEARSIDE) 法を開発した。
論文 参考訳(メタデータ) (2024-10-30T10:33:10Z) - Rejection Sampling IMLE: Designing Priors for Better Few-Shot Image
Synthesis [7.234618871984921]
新たな研究分野は、限られたトレーニングデータで深層生成モデルを学ぶことを目的としている。
トレーニングに使用する事前分布を変更する新しいアプローチであるRS-IMLEを提案する。
これにより、既存のGANやIMLEベースの手法に比べて画質が大幅に向上する。
論文 参考訳(メタデータ) (2024-09-26T00:19:42Z) - One Shot is Enough for Sequential Infrared Small Target Segmentation [9.354927663020586]
赤外線小ターゲットシーケンスはフレーム間に強い類似性を示し、リッチなコンテキスト情報を含む。
本稿では,SAMのゼロショット一般化能力を逐次IRSTSに完全に適応させるワンショット・トレーニングフリーな手法を提案する。
実験の結果,現状のIRSTS法に匹敵する性能を達成するためには,本手法では1ショットしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-08-09T02:36:56Z) - IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection [55.554484379021524]
Infrared Small Target Detection (IRSTD) タスクは、自然画像と赤外線画像の間に顕著な領域ギャップがあるため、満足度の高い性能を達成するには不十分である。
IRSTDのためのIRSAMモデルを提案する。これはSAMのエンコーダデコーダアーキテクチャを改善し、赤外線小物体の特徴表現をより良く学習する。
論文 参考訳(メタデータ) (2024-07-10T10:17:57Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Black-box Adversarial Attacks against Dense Retrieval Models: A
Multi-view Contrastive Learning Method [115.29382166356478]
本稿では,敵探索攻撃(AREA)タスクを紹介する。
DRモデルは、DRモデルによって取得された候補文書の初期セットの外側にあるターゲット文書を取得するように、DRモデルを騙すことを目的としている。
NRM攻撃で報告された有望な結果は、DRモデルに一般化されない。
マルチビュー表現空間における対照的な学習問題として,DRモデルに対する攻撃を形式化する。
論文 参考訳(メタデータ) (2023-08-19T00:24:59Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Unbiased Mean Teacher for Cross-domain Object Detection [46.75177193771992]
オブジェクト検出モデルはデータ分散に弱いことが多いため、ドメイン間のオブジェクト検出は困難である。
クロスドメインオブジェクト検出のためのUnbiased Mean Teacher (UMT)モデルを提案する。
我々のUTTモデルは、ベンチマークデータセット上で44.1%、58.1%、41.7%、43.1%のmAPを達成している。
論文 参考訳(メタデータ) (2020-03-02T08:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。