論文の概要: Thermal-Det: Language-Guided Cross-Modal Distillation for Open-Vocabulary Thermal Object Detection
- arxiv url: http://arxiv.org/abs/2605.10130v1
- Date: Mon, 11 May 2026 07:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.613861
- Title: Thermal-Det: Language-Guided Cross-Modal Distillation for Open-Vocabulary Thermal Object Detection
- Title(参考訳): 開語彙熱物体検出のための言語誘導クロスモーダル蒸留法
- Authors: Yasiru Ranasinghe, Elim Schenck, Florence Yellin, Shuowen Hu, Christopher Funk, Vishal M. Patel,
- Abstract要約: 既存のオープンボキャブラリ検出器はRGB画像に焦点を合わせ、熱画像への一般化に失敗した。
熱画像用に調整された第1大言語モデル (LLM) のオープン語彙検出装置であるサーマルデットについて述べる。
- 参考スコア(独自算出の注目度): 41.947503656624285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing open-vocabulary detectors focus on RGB images and fail to generalize to thermal imagery, where low texture and emissivity variations challenge RGB-based semantics. We present Thermal-Det, the first large language model (LLM) supervised open-vocabulary detector tailored for thermal images. To enable large-scale training, we develop a synthetic dataset by converting GroundingCap-1M into the thermal domain and filtering captions to remove RGB-specific terms, yielding over one million thermally aligned samples with bounding boxes, grounding texts, and detailed captions. Thermal-Det jointly optimizes detection, captioning, and cross-modal distillation objectives. A frozen RGB teacher provides geometric and semantic pseudo-supervision for paired but unlabeled RGB-thermal data, transferring open-vocabulary knowledge without manual annotation. The model further employs a Thermal-Text Alignment Head for text calibration and a Modality-Fused Cross-Attention module for dual-modality reasoning. Unlike prior domain-adaptation methods, the detector is fully fine-tuned to internalize thermal contrast patterns while preserving language alignment. Experiments on public benchmarks show consistent 2-4% AP gains over existing open-vocabulary detectors, establishing a strong foundation for scalable, language-driven thermal perception.
- Abstract(参考訳): 既存のオープンボキャブラリ検出器はRGB画像に重点を置いており、テクスチャと放射率の変動がRGBのセマンティクスに挑戦する熱画像への一般化に失敗している。
熱画像用に調整された第1大言語モデル (LLM) のオープン語彙検出装置であるサーマルデットについて述べる。
大規模トレーニングを実現するため,GroundingCap-1Mをサーマルドメインに変換し,キャプションをフィルタリングしてRGB固有の用語を除去し,100万以上のサーマルアライメントされたサンプルをバウンディングボックス,グラウンドテキスト,詳細なキャプションで生成する合成データセットを開発した。
Thermal-Detは、検出、キャプション、およびクロスモーダル蒸留の目的を共同で最適化する。
凍結したRGB教師は、ペア化されたがラベル付けされていないRGB熱的データに対して幾何学的および意味的な擬似スーパービジョンを提供し、手動のアノテーションなしでオープン語彙の知識を伝達する。
さらに、テキストキャリブレーションには熱テキストアライメントヘッド、二重モード推論にはModality-Fused Cross-Attentionモジュールが使用される。
従来のドメイン適応法とは異なり、検出器は完全に微調整され、言語アライメントを維持しながら熱コントラストパターンを内部化する。
公開ベンチマークの実験では、既存のオープンボキャブラリ検出器よりも2-4%APが一貫した増加を示し、スケーラブルで言語駆動の熱知覚の強力な基盤を確立している。
関連論文リスト
- TextLDM: Language Modeling with Continuous Latent Diffusion [89.69255520673248]
拡散変換器(DiT)は、VAEラテント空間におけるフローマッチングで訓練され、画像やビデオ間で統一された視覚生成を行う。
最小限のアーキテクチャ変更で視覚的潜伏拡散のレシピをテキスト生成に転送するTextLDMを提案する。
論文 参考訳(メタデータ) (2026-05-08T13:54:34Z) - Bridging the RGB-IR Gap: Consensus and Discrepancy Modeling for Text-Guided Multispectral Detection [45.62297680190076]
マルチスペクトルオブジェクト検出のためのバイサポートモデリングを用いたセマンティックブリッジ融合フレームワークを提案する。
具体的には、テキストを共有セマンティックブリッジとして使用して、RGBおよびIR応答を統一されたカテゴリ条件下で整列させる。
RGB-IR相互作用の証拠を正規のコンセンサス支援と相補的な相補的な相補性支援に定式化する。
論文 参考訳(メタデータ) (2026-04-13T09:41:01Z) - TherA: Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation [12.591408054941027]
TherAは制御可能なRGB-to-TIR翻訳フレームワークで、シーンレベルでもオブジェクトレベルでも多彩で熱可塑性の画像を生成する。
TherAは最先端の翻訳性能を実現し、ゼロショット翻訳性能が改善された。
論文 参考訳(メタデータ) (2026-02-23T01:56:29Z) - ThermEval: A Structured Benchmark for Evaluation of Vision-Language Models on Thermal Imagery [11.547362584832769]
ヴィジュアル言語モデル(VLM)はRGB画像において高い性能を達成するが、熱画像には一般化しない。
サーマルセンシングは、夜間監視、捜索救助、自律運転、医療スクリーニングなど、可視光が失敗する状況において重要な役割を果たす。
本稿ではサーマルビジョン言語理解に必要な基礎的プリミティブを評価するベンチマークであるThermEval-Bを紹介する。
論文 参考訳(メタデータ) (2026-02-16T18:16:19Z) - ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation [14.108149959967095]
ペアリングRGBサーマルデータは、視覚-サーマル・フュージョンとクロスモダリティ・タスクに不可欠である。
この課題を克服するため、RGB-to-Thermal (RGB-T)イメージ翻訳が有望なソリューションとして登場した。
本研究では,RGB-T画像変換のための適応型フローベース生成モデルであるHeatherGenを提案する。
論文 参考訳(メタデータ) (2025-09-29T14:55:51Z) - Alignment-Free RGBT Salient Object Detection: Semantics-guided Asymmetric Correlation Network and A Unified Benchmark [15.435695491233982]
RGB と Thermal (RGBT) Salient Object Detection (SOD) は高品質な塩分濃度予測を実現することを目的としている。
既存の手法は、労働集約的な手動でアライメントされたイメージペア向けに調整されている。
手動によるアライメントを伴わないRGBT SODと熱画像のペアに対して,RGBT SODに対処する最初の試みを行う。
論文 参考訳(メタデータ) (2024-06-03T01:01:58Z) - Does Thermal Really Always Matter for RGB-T Salient Object Detection? [153.17156598262656]
本稿では,RGB-T有意物体検出(SOD)タスクを解決するために,TNetというネットワークを提案する。
本稿では,画像のグローバル照度を推定するためのグローバル照度推定モジュールを提案する。
一方, 2段階の局所化と相補化モジュールを導入し, 熱的特徴の物体位置化キューと内部整合キューをRGBモダリティに転送する。
論文 参考訳(メタデータ) (2022-10-09T13:50:12Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Exploring Thermal Images for Object Detection in Underexposure Regions
for Autonomous Driving [67.69430435482127]
アンダーエクスポージャー地域は、安全な自動運転のための周囲の完全な認識を構築するのに不可欠である。
サーマルカメラが利用可能になったことで、他の光学センサーが解釈可能な信号を捉えていない地域を探索するための重要な代替手段となった。
本研究は,可視光画像から熱画像へ学習を伝達するためのスタイル伝達手法を用いたドメイン適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-01T09:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。