論文の概要: Dual-Granularity Semantic Prompting for Language Guidance Infrared Small Target Detection
- arxiv url: http://arxiv.org/abs/2511.19306v1
- Date: Mon, 24 Nov 2025 16:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.329376
- Title: Dual-Granularity Semantic Prompting for Language Guidance Infrared Small Target Detection
- Title(参考訳): 言語誘導赤外小ターゲット検出のためのデュアルグラニュリティ・セマンティック・プロンプト
- Authors: Zixuan Wang, Haoran Sun, Jiaming Lu, Wenxuan Wang, Zhongling Huang, Dingwen Zhang, Xuelin Qian, Junwei Han,
- Abstract要約: 限られた特徴表現と厳しい背景干渉のため、赤外線小目標検出は依然として困難である。
エンドツーエンドの言語プロンプト駆動フレームワークであるDGSPNetを提案する。
提案手法は検出精度を大幅に向上し、3つのベンチマークデータセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 102.1314414263959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Infrared small target detection remains challenging due to limited feature representation and severe background interference, resulting in sub-optimal performance. While recent CLIP-inspired methods attempt to leverage textual guidance for detection, they are hindered by inaccurate text descriptions and reliance on manual annotations. To overcome these limitations, we propose DGSPNet, an end-to-end language prompt-driven framework. Our approach integrates dual-granularity semantic prompts: coarse-grained textual priors (e.g., 'infrared image', 'small target') and fine-grained personalized semantic descriptions derived through visual-to-textual mapping within the image space. This design not only facilitates learning fine-grained semantic information but also can inherently leverage language prompts during inference without relying on any annotation requirements. By fully leveraging the precision and conciseness of text descriptions, we further introduce a text-guide channel attention (TGCA) mechanism and text-guide spatial attention (TGSA) mechanism that enhances the model's sensitivity to potential targets across both low- and high-level feature spaces. Extensive experiments demonstrate that our method significantly improves detection accuracy and achieves state-of-the-art performance on three benchmark datasets.
- Abstract(参考訳): 限られた特徴表現と厳しい背景干渉のため、赤外線小目標検出は依然として困難であり、その結果、準最適性能が得られる。
最近のCLIPにインスパイアされたメソッドは、検出のためのテキストガイダンスを活用するが、不正確なテキスト記述と手動アノテーションへの依存によって妨げられる。
これらの制限を克服するために、エンドツーエンドの言語プロンプト駆動フレームワークであるDGSPNetを提案する。
提案手法は、粗粒度テキストの先行(例えば、「赤外画像」や「小ターゲット」)と、画像空間内の視覚とテキストのマッピングから派生した微細粒度パーソナライズされたセマンティック記述とを組み合わせる。
この設計は、きめ細かいセマンティック情報を学習するだけでなく、いかなるアノテーションの要求にも依存せずに、推論中に言語プロンプトを本質的に活用することができる。
さらに,テキスト記述の精度と簡潔さを十分に活用することにより,低レベルの特徴空間と高レベルの特徴空間にまたがる潜在的なターゲットに対するモデルの感度を高めるための,テキストガイドチャネルアテンション(TGCA)機構とテキストガイド空間アテンション(TGSA)機構を導入する。
大規模な実験により,本手法は検出精度を大幅に向上し,3つのベンチマークデータセットの最先端性能を実現する。
関連論文リスト
- Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - DPSeg: Dual-Prompt Cost Volume Learning for Open-Vocabulary Semantic Segmentation [16.64056234334767]
Open-vocabulary semantic segmentationは、画像をピクセルレベルで異なる意味領域に分割することを目的としている。
現在の方法は、CLIPのような訓練済みの視覚言語モデルのテキスト埋め込みを利用する。
本稿では,この課題に対する二重プロンプトフレームワークDPSegを提案する。
論文 参考訳(メタデータ) (2025-05-16T20:25:42Z) - Text-IRSTD: Leveraging Semantic Text to Promote Infrared Small Target Detection in Complex Scenes [3.399048100638418]
我々は,テキストIRSTDと呼ばれる赤外線小ターゲット検出のためのセマンティックテキストを活用した新しいアプローチを提案する。
テキストと画像間の情報融合を容易にするために, プログレッシブ・モーダル・セマンティック・インタラクション・デコーダ (PCSID) を提案する。
さらに,FZDTと呼ばれるファジィセマンティックテキストアノテーションを用いて,異なるシナリオの2,755個の赤外線画像からなる新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-03-10T12:33:07Z) - Empowering Sparse-Input Neural Radiance Fields with Dual-Level Semantic Guidance from Dense Novel Views [66.1245505423179]
レンダリングされたセマンティクスは、レンダリングされたRGBよりも堅牢な拡張データとして扱うことができることを示す。
提案手法は, セマンティクスから導出されるガイダンスを組み込むことで, NeRFの性能を向上させる。
論文 参考訳(メタデータ) (2025-03-04T03:13:44Z) - T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting [30.004769932953952]
ゼロショットオブジェクトカウントは、テキスト記述によって指定された任意のオブジェクトカテゴリのインスタンスをカウントすることを目的としている。
我々は、事前学習した拡散モデルから、豊富な事前知識ときめ細かい視覚的理解を活用する拡散に基づくフレームワークT2ICountを提案する。
論文 参考訳(メタデータ) (2025-02-28T01:09:18Z) - TextSleuth: Towards Explainable Tampered Text Detection [49.88698441048043]
本稿では,大規模なマルチモーダルモデルを用いて,自然言語による改ざんテキスト検出の基礎を説明する。
このタスクのデータギャップを埋めるため,大規模な包括的データセットETTDを提案する。
GPT4oで高品質な異常記述を生成するために、共同クエリが導入された。
低品質なアノテーションを自動的にフィルタリングするために、GPT4oに改ざんされたテキストを認識するよう促すことも提案する。
論文 参考訳(メタデータ) (2024-12-19T13:10:03Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。