論文の概要: SPIRIT: Adapting Vision Foundation Models for Unified Single- and Multi-Frame Infrared Small Target Detection
- arxiv url: http://arxiv.org/abs/2602.01843v1
- Date: Mon, 02 Feb 2026 09:15:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.031737
- Title: SPIRIT: Adapting Vision Foundation Models for Unified Single- and Multi-Frame Infrared Small Target Detection
- Title(参考訳): SPIRIT:単一・多フレーム赤外小ターゲット検出のためのビジョン基礎モデルへの適応
- Authors: Qian Xu, Xi Li, Fei Gao, Jie Guo, Haojuan Yuan, Shuaipeng Fan, Mingjin Zhang,
- Abstract要約: 赤外線小目標検出(IRSTD)は監視と早期警戒に不可欠であり、単一フレーム分析とビデオモード追跡の両方に展開する。
本稿では,軽量な物理インフォームドプラグインによってVFMをIRSTDに適応させる,統一的でVFM互換のフレームワークであるSPIRITを提案する。
- 参考スコア(独自算出の注目度): 18.86422994684341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared small target detection (IRSTD) is crucial for surveillance and early-warning, with deployments spanning both single-frame analysis and video-mode tracking. A practical solution should leverage vision foundation models (VFMs) to mitigate infrared data scarcity, while adopting a memory-attention-based temporal propagation framework that unifies single- and multi-frame inference. However, infrared small targets exhibit weak radiometric signals and limited semantic cues, which differ markedly from visible-spectrum imagery. This modality gap makes direct use of semantics-oriented VFMs and appearance-driven cross-frame association unreliable for IRSTD: hierarchical feature aggregation can submerge localized target peaks, and appearance-only memory attention becomes ambiguous, leading to spurious clutter associations. To address these challenges, we propose SPIRIT, a unified and VFM-compatible framework that adapts VFMs to IRSTD via lightweight physics-informed plug-ins. Spatially, PIFR refines features by approximating rank-sparsity decomposition to suppress structured background components and enhance sparse target-like signals. Temporally, PGMA injects history-derived soft spatial priors into memory cross-attention to constrain cross-frame association, enabling robust video detection while naturally reverting to single-frame inference when temporal context is absent. Experiments on multiple IRSTD benchmarks show consistent gains over VFM-based baselines and SOTA performance.
- Abstract(参考訳): 赤外線小目標検出(IRSTD)は監視と早期警戒に不可欠であり、単一フレーム分析とビデオモード追跡の両方に展開する。
現実的な解決策は、視覚基盤モデル(VFM)を活用して、単一および複数フレームの推論を統一するメモリアテンションベースの時間伝搬フレームワークを採用しながら、赤外線データの不足を軽減することである。
しかし、赤外線小ターゲットは、可視スペクトル画像とは大きく異なる、弱いラジオメトリック信号と限られた意味的手がかりを示す。
このモダリティギャップは、セマンティクス指向のVFMと、IRSTDでは信頼できない外観駆動のクロスフレームアソシエーションを直接利用する。
これらの課題に対処するために,軽量な物理インフォームドプラグインを用いてVFMをIRSTDに適応させる,統一的でVFM互換のフレームワークであるSPIRITを提案する。
PIFRは、階層化背景成分の抑制とスパースターゲットライクな信号の強化のために、階級分離分解を近似することで特徴を洗練する。
一時、PGMAはメモリクロスアテンションに履歴由来のソフトスペース先行を注入してクロスフレームアソシエーションを制限し、時間的コンテキストが欠如している場合に自然に単一フレームの推論に逆戻りしながら、ロバストなビデオ検出を可能にする。
複数のIRSTDベンチマークの実験は、VFMベースのベースラインとSOTAの性能よりも一貫した向上を示した。
関連論文リスト
- Breaking Self-Attention Failure: Rethinking Query Initialization for Infrared Small Target Detection [22.128797773091403]
赤外線小目標検出(IRSTD)は、低信号対雑音比(SNR)、小さなターゲットサイズ、複雑な乱雑な背景のために大きな課題に直面している。
最近のDETRベースの検出器は、IRSTDに顕著な性能劣化を示す。
論文 参考訳(メタデータ) (2026-01-06T09:14:01Z) - Rethinking Infrared Small Target Detection: A Foundation-Driven Efficient Paradigm [17.63632082331749]
大規模視覚基盤モデル(VFM)は、多様な視覚領域にまたがる強力な一般化を示すが、単一フレーム赤外線小目標(SIRST)検出の可能性は、まだ明らかにされていない。
本稿では,既存のエンコーダデコーダベースの手法にシームレスに適応できるFDEP(Foundation-Driven Efficient Paradigm)を提案する。
論文 参考訳(メタデータ) (2025-12-05T08:12:35Z) - IrisNet: Infrared Image Status Awareness Meta Decoder for Infrared Small Targets Detection [92.56025546608699]
IrisNetは、入力赤外線画像ステータスに検出戦略を適用する、新しいメタ学習フレームワークである。
提案手法は,赤外線画像特徴量とデコーダパラメータ全体の動的マッピングを確立する。
NUDT-SIRST、NUAA-SIRST、IRSTD-1Kデータセットの実験は、我々のIrisNetの優位性を示している。
論文 参考訳(メタデータ) (2025-11-25T13:53:54Z) - VFM-Guided Semi-Supervised Detection Transformer under Source-Free Constraints for Remote Sensing Object Detection [9.029534000674388]
VG-DETRは、Vision Foundation Model(VFM)を「フリーランチ」方法でトレーニングパイプラインに統合する。
擬似ラベルの信頼性を評価するために,VFMのセマンティックな事前情報を利用した擬似ラベルマイニング手法を提案する。
さらに,デュアルレベルのVFM誘導アライメント手法を提案し,インスタンスレベルと画像レベルでのVFM埋め込みと検出器特性を一致させる。
論文 参考訳(メタデータ) (2025-08-15T02:35:56Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [49.81255045696323]
補助メタデータ駆動型赤外小型ターゲット検出器(AuxDet)について述べる。
AuxDetはメタデータセマンティクスと視覚的特徴を統合し、各サンプルに対する適応表現学習を導く。
挑戦的なWideIRSTD-Fullベンチマークの実験は、AuxDetが一貫して最先端のメソッドより優れていることを示した。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Multi-Domain Biometric Recognition using Body Embeddings [51.36007967653781]
身体埋め込みは中波長赤外線(MWIR)領域と長波長赤外線(LWIR)領域の顔埋め込みよりも優れていた。
我々は、IJB-MDFデータセット上でのベンチマーク結果を確立するために、ビジョントランスフォーマーアーキテクチャを活用している。
また, クロスエントロピーとトリプルト損失の単純な組み合わせで, VISデータにのみ事前訓練された体モデルを微調整することで, 最先端のmAPスコアが得られることを示す。
論文 参考訳(メタデータ) (2025-03-13T22:38:18Z) - Frequency Domain Modality-invariant Feature Learning for
Visible-infrared Person Re-Identification [79.9402521412239]
本稿では、周波数領域から見たモダリティの相違を低減するために、新しい周波数領域モダリティ不変特徴学習フレームワーク(FDMNet)を提案する。
我々のフレームワークでは、インスタンス適応振幅フィルタ(IAF)とPhrase-Preserving Normalization(PPNorm)という、2つの新しいモジュールを導入している。
論文 参考訳(メタデータ) (2024-01-03T17:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。