論文の概要: AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection
- arxiv url: http://arxiv.org/abs/2505.15184v1
- Date: Wed, 21 May 2025 07:02:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.033199
- Title: AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection
- Title(参考訳): AuxDet: Omni-Domain Infrared Small Target Detectionのための補助メタデータ
- Authors: Yangting Shi, Renjie He, Le Hui, Xiang Li, Jian Yang, Ming-Ming Cheng, Yimian Dai,
- Abstract要約: シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
- 参考スコア(独自算出の注目度): 58.67129770371016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Omni-domain infrared small target detection (IRSTD) poses formidable challenges, as a single model must seamlessly adapt to diverse imaging systems, varying resolutions, and multiple spectral bands simultaneously. Current approaches predominantly rely on visual-only modeling paradigms that not only struggle with complex background interference and inherently scarce target features, but also exhibit limited generalization capabilities across complex omni-scene environments where significant domain shifts and appearance variations occur. In this work, we reveal a critical oversight in existing paradigms: the neglect of readily available auxiliary metadata describing imaging parameters and acquisition conditions, such as spectral bands, sensor platforms, resolution, and observation perspectives. To address this limitation, we propose the Auxiliary Metadata Driven Infrared Small Target Detector (AuxDet), a novel multi-modal framework that fundamentally reimagines the IRSTD paradigm by incorporating textual metadata for scene-aware optimization. Through a high-dimensional fusion module based on multi-layer perceptrons (MLPs), AuxDet dynamically integrates metadata semantics with visual features, guiding adaptive representation learning for each individual sample. Additionally, we design a lightweight prior-initialized enhancement module using 1D convolutional blocks to further refine fused features and recover fine-grained target cues. Extensive experiments on the challenging WideIRSTD-Full benchmark demonstrate that AuxDet consistently outperforms state-of-the-art methods, validating the critical role of auxiliary information in improving robustness and accuracy in omni-domain IRSTD tasks. Code is available at https://github.com/GrokCV/AuxDet.
- Abstract(参考訳): Omniドメインの赤外線小ターゲット検出(IRSTD)は、単一のモデルが多様なイメージングシステム、様々な解像度、複数のスペクトル帯域にシームレスに適応する必要があるため、非常に困難な課題となる。
現在のアプローチは、複雑な背景干渉に苦しむだけでなく、ドメインシフトや外見の変化が著しい複雑なオームニシーン環境全体にわたって限定的な一般化能力を示す、視覚のみのモデリングパラダイムに大きく依存している。
本研究は,スペクトル帯域,センサプラットフォーム,解像度,観測視点など,画像パラメータや取得条件を記述した簡易な補助メタデータの無視という,既存のパラダイムに対する重要な視点を明らかにする。
この制限に対処するために、シーン認識最適化にテキストメタデータを組み込むことでIRSTDパラダイムを根本的に再定義する新しいマルチモーダルフレームワークであるAuxDet(AuxDet)を提案する。
多層パーセプトロン(MLP)に基づく高次元融合モジュールを通じて、AuxDetはメタデータセマンティクスと視覚的特徴を動的に統合し、個々のサンプルに対して適応表現学習を導く。
さらに、1次元畳み込みブロックを用いた軽量な事前初期化拡張モジュールを設計し、融合した特徴をさらに洗練し、きめ細かいターゲットキューを復元する。
挑戦的なWideIRSTD-Fullベンチマークに関する大規模な実験により、AuxDetは最先端の手法を一貫して上回り、OmniドメインIRSTDタスクの堅牢性と正確性を改善するための補助情報の重要性を検証した。
コードはhttps://github.com/GrokCV/AuxDet.comで入手できる。
関連論文リスト
- XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration [2.7036595757881323]
XPointは、アダプティブトレーニングと、アライメントされたマルチスペクトルデータセットの微調整のための、自己教師付き、モジュール化された画像マッチングフレームワークである。
XPointはモジュラリティと自己スーパービジョンを採用し、ベース検出器のような要素の調整を可能にしている。
XPointは、機能マッチングや画像登録タスクにおいて、最先端のメソッドを一貫して上回るか、マッチする。
論文 参考訳(メタデータ) (2024-11-11T23:12:08Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。