論文の概要: Leveraging Language Prior for Infrared Small Target Detection
- arxiv url: http://arxiv.org/abs/2507.13113v1
- Date: Thu, 17 Jul 2025 13:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.516999
- Title: Leveraging Language Prior for Infrared Small Target Detection
- Title(参考訳): 赤外線小ターゲット検出に先立つレバレッジ言語
- Authors: Pranav Singh, Pravendra Singh,
- Abstract要約: IRSTD (Infrared Small Target Detection) は、赤外線のぼやけた背景にある小さなターゲットを検出する。
そこで本稿では,言語事前を組み込んだ新たなフレームワークを提案する。
我々は、赤外線画像中の小さなターゲットの位置を提供するテキスト記述を生成する。
- 参考スコア(独自算出の注目度): 10.246977481606425
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: IRSTD (InfraRed Small Target Detection) detects small targets in infrared blurry backgrounds and is essential for various applications. The detection task is challenging due to the small size of the targets and their sparse distribution in infrared small target datasets. Although existing IRSTD methods and datasets have led to significant advancements, they are limited by their reliance solely on the image modality. Recent advances in deep learning and large vision-language models have shown remarkable performance in various visual recognition tasks. In this work, we propose a novel multimodal IRSTD framework that incorporates language priors to guide small target detection. We leverage language-guided attention weights derived from the language prior to enhance the model's ability for IRSTD, presenting a novel approach that combines textual information with image data to improve IRSTD capabilities. Utilizing the state-of-the-art GPT-4 vision model, we generate text descriptions that provide the locations of small targets in infrared images, employing careful prompt engineering to ensure improved accuracy. Due to the absence of multimodal IR datasets, existing IRSTD methods rely solely on image data. To address this shortcoming, we have curated a multimodal infrared dataset that includes both image and text modalities for small target detection, expanding upon the popular IRSTD-1k and NUDT-SIRST datasets. We validate the effectiveness of our approach through extensive experiments and comprehensive ablation studies. The results demonstrate significant improvements over the state-of-the-art method, with relative percentage differences of 9.74%, 13.02%, 1.25%, and 67.87% in IoU, nIoU, Pd, and Fa on the NUAA-SIRST subset, and 4.41%, 2.04%, 2.01%, and 113.43% on the IRSTD-1k subset of the LangIR dataset, respectively.
- Abstract(参考訳): IRSTD (InfraRed Small Target Detection) は、赤外線ぼやけた背景の小さなターゲットを検出し、様々なアプリケーションに必須である。
検出タスクは、ターゲットの小さなサイズと、赤外線小ターゲットデータセットにおけるスパース分布のため、難しい。
既存のIRSTD法やデータセットは大幅に進歩しているが、画像のモダリティのみに依存しているため制限されている。
近年のディープラーニングと大規模視覚言語モデルの進歩は、様々な視覚認識タスクにおいて顕著な性能を示している。
本研究では,言語先行を組み込んだマルチモーダルIRSTDフレームワークを提案する。
我々は、IRSTDのモデル能力を高めるために、言語から導出される言語誘導の注意重みを活用し、テキスト情報と画像データを組み合わせてIRSTD機能を改善する新しいアプローチを提案する。
我々は最先端のGPT-4ビジョンモデルを用いて、赤外線画像の小さなターゲットの位置を提供するテキスト記述を生成する。
マルチモーダルIRデータセットがないため、既存のIRSTD法は画像データのみに依存している。
この欠点に対処するため、IRSTD-1k と NUDT-SIRST のデータセットに拡張した、画像とテキストの両方のモダリティを含むマルチモーダル赤外線データセットをキュレートした。
我々は,広範囲な実験と包括的アブレーション研究を通じて,アプローチの有効性を検証した。
その結果、NUAA-SIRSTサブセットのIoU、nIoU、Pd、Faの9.74%、13.02%、1.25%、および67.87%、LangIRデータセットのIRSTD-1kサブセットの4.41%、2.04%、2.01%、113.43%の比率で、最先端の手法よりも大幅に改善された。
関連論文リスト
- It's Not the Target, It's the Background: Rethinking Infrared Small Target Detection via Deep Patch-Free Low-Rank Representations [5.326302374594885]
本稿では、LRRNetと呼ばれる新しいエンドツーエンドIRSTDフレームワークを提案する。
乱れシーンの物理的圧縮性に着想を得て,本手法は圧縮・再構成・減算パラダイムを採用する。
複数の公開データセットの実験により、LRRNetは検出精度、堅牢性、計算効率の点で38の最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-06-12T07:24:45Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Text-IRSTD: Leveraging Semantic Text to Promote Infrared Small Target Detection in Complex Scenes [3.399048100638418]
我々は,テキストIRSTDと呼ばれる赤外線小ターゲット検出のためのセマンティックテキストを活用した新しいアプローチを提案する。
テキストと画像間の情報融合を容易にするために, プログレッシブ・モーダル・セマンティック・インタラクション・デコーダ (PCSID) を提案する。
さらに,FZDTと呼ばれるファジィセマンティックテキストアノテーションを用いて,異なるシナリオの2,755個の赤外線画像からなる新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-03-10T12:33:07Z) - Effective and Efficient Adversarial Detection for Vision-Language Models via A Single Vector [97.92369017531038]
Diverse hArmful Responses (RADAR) を用いた新しい laRge-scale Adervsarial 画像データセットを構築した。
そこで我々は,視覚言語モデル (VLM) の隠れ状態から抽出した1つのベクトルを利用して,入力中の良質な画像に対して対向画像を検出する,新しいiN時間埋め込み型AdveRSarial Image Detectction (NEARSIDE) 法を開発した。
論文 参考訳(メタデータ) (2024-10-30T10:33:10Z) - Unleashing the Power of Generic Segmentation Models: A Simple Baseline for Infrared Small Target Detection [57.666055329221194]
本稿では,Segment Anything Model (SAM) などのジェネリックセグメンテーションモデルの赤外線小物体検出タスクへの適応について検討する。
提案モデルでは,既存の手法と比較して,精度とスループットの両方で性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-07T05:31:24Z) - MWIRSTD: A MWIR Small Target Detection Dataset [7.098858506545125]
本稿では、新しい中波長赤外(MWIR)小型目標検出データセット(MWIRSTD)を提案する。
約1053の画像を含む14の動画シーケンスと、3種類の小さなオブジェクトの注釈付きターゲットを含む。
このデータセットは、研究者が現実のMWIRシーンで小さな物体を検出する最先端の手法を開発し、評価するユニークな機会を提供する。
論文 参考訳(メタデータ) (2024-06-12T10:26:52Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Infrared Small-Dim Target Detection with Transformer under Complex
Backgrounds [155.388487263872]
変換器を用いた赤外線小径目標検出手法を提案する。
画像特徴の相互作用情報をより広い範囲で学習するために,変換器の自己認識機構を採用する。
最小限のターゲットの機能を学習するための機能拡張モジュールも設計しています。
論文 参考訳(メタデータ) (2021-09-29T12:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。