論文の概要: Rethinking Infrared Small Target Detection: A Foundation-Driven Efficient Paradigm
- arxiv url: http://arxiv.org/abs/2512.05511v1
- Date: Fri, 05 Dec 2025 08:12:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.949957
- Title: Rethinking Infrared Small Target Detection: A Foundation-Driven Efficient Paradigm
- Title(参考訳): 赤外線小ターゲット検出の再考:基礎駆動型効率的なパラダイム
- Authors: Chuang Yu, Jinmiao Zhao, Yunpeng Liu, Yaokun Li, Xiujun Shu, Yuanhao Feng, Bo Wang, Yimian Dai, Xiangyu Yue,
- Abstract要約: 大規模視覚基盤モデル(VFM)は、多様な視覚領域にまたがる強力な一般化を示すが、単一フレーム赤外線小目標(SIRST)検出の可能性は、まだ明らかにされていない。
本稿では,既存のエンコーダデコーダベースの手法にシームレスに適応できるFDEP(Foundation-Driven Efficient Paradigm)を提案する。
- 参考スコア(独自算出の注目度): 17.63632082331749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large-scale visual foundation models (VFMs) exhibit strong generalization across diverse visual domains, their potential for single-frame infrared small target (SIRST) detection remains largely unexplored. To fill this gap, we systematically introduce the frozen representations from VFMs into the SIRST task for the first time and propose a Foundation-Driven Efficient Paradigm (FDEP), which can seamlessly adapt to existing encoder-decoder-based methods and significantly improve accuracy without additional inference overhead. Specifically, a Semantic Alignment Modulation Fusion (SAMF) module is designed to achieve dynamic alignment and deep fusion of the global semantic priors from VFMs with task-specific features. Meanwhile, to avoid the inference time burden introduced by VFMs, we propose a Collaborative Optimization-based Implicit Self-Distillation (CO-ISD) strategy, which enables implicit semantic transfer between the main and lightweight branches through parameter sharing and synchronized backpropagation. In addition, to unify the fragmented evaluation system, we construct a Holistic SIRST Evaluation (HSE) metric that performs multi-threshold integral evaluation at both pixel-level confidence and target-level robustness, providing a stable and comprehensive basis for fair model comparison. Extensive experiments demonstrate that the SIRST detection networks equipped with our FDEP framework achieve state-of-the-art (SOTA) performance on multiple public datasets. Our code is available at https://github.com/YuChuang1205/FDEP-Framework
- Abstract(参考訳): 大規模視覚基盤モデル(VFM)は、多様な視覚領域にまたがる強力な一般化を示すが、単一フレーム赤外線小目標(SIRST)検出の可能性は、まだ明らかにされていない。
このギャップを埋めるために、VFMからの凍結表現を初めてSIRSTタスクに体系的に導入し、既存のエンコーダ-デコーダベースの手法にシームレスに適応し、追加の推論オーバーヘッドなしに精度を大幅に向上するFDEPを提案する。
具体的には、セマンティックアライメント・モジュレーション・フュージョン(SAMF)モジュールは、タスク固有の特徴を持つVFMからグローバルセマンティック先行の動的アライメントと深層融合を実現するように設計されている。
一方、VFMが導入する推定時間負担を回避するため、パラメータ共有と同期バックプロパゲーションによる主枝と軽量枝間の暗黙的な意味伝達を可能にする、協調最適化に基づくインプリシット自己蒸留(CO-ISD)戦略を提案する。
さらに,断片化評価システムを統合するために,画素レベルの信頼度と目標レベルのロバスト性の両方で多閾値積分評価を行うホロスティックSIRST評価(HSE)尺度を構築し,公平なモデル比較のための安定かつ包括的基盤を提供する。
FDEPフレームワークを備えたSIRST検出ネットワークは,複数の公開データセット上でのSOTA(State-of-the-art)性能を実現する。
私たちのコードはhttps://github.com/YuChuang1205/FDEP-Frameworkで利用可能です。
関連論文リスト
- SAMamba: Adaptive State Space Modeling with Hierarchical Vision for Infrared Small Target Detection [12.964308630328688]
赤外線小目標検出(ISTD)は、軍事・海上・早期警戒用途における長距離監視に不可欠である。
ISTDは画像の0.15%未満のターゲットと複雑な背景との識別性が低いターゲットによって挑戦されている。
本稿では,SAM2の階層的特徴学習とMambaの選択的シーケンスモデリングを統合した新しいフレームワークSAMambaを提案する。
論文 参考訳(メタデータ) (2025-05-29T07:55:23Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [49.81255045696323]
補助メタデータ駆動型赤外小型ターゲット検出器(AuxDet)について述べる。
AuxDetはメタデータセマンティクスと視覚的特徴を統合し、各サンプルに対する適応表現学習を導く。
挑戦的なWideIRSTD-Fullベンチマークの実験は、AuxDetが一貫して最先端のメソッドより優れていることを示した。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - CSPENet: Contour-Aware and Saliency Priors Embedding Network for Infrared Small Target Detection [4.731073701194089]
赤外線小目標検出(ISTD)は、幅広い民間・軍事用途において重要な役割を担っている。
既存の手法では, 密集した乱雑な環境下でのディムターゲットの局所化や輪郭情報の認識に欠陥がある。
本稿では,ISTDのためのcontour-aware and saliency priors embedded network (CSPENet)を提案する。
論文 参考訳(メタデータ) (2025-05-15T03:56:36Z) - LSP-ST: Ladder Shape-Biased Side-Tuning for Robust Infrared Small Target Detection [4.5138645285711165]
LSP-ST(Ladder Shape-Biased Side-Tuning)を提案する。
学習可能なパラメータは4.72Mしかなく、LSP-STは複数の赤外線小ターゲット検出ベンチマークで最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-04-20T04:12:38Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。