論文の概要: Thermo-VL: Extending Vision-Language Models to Thermal Infrared Perception
- arxiv url: http://arxiv.org/abs/2605.21882v1
- Date: Thu, 21 May 2026 01:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.053958
- Title: Thermo-VL: Extending Vision-Language Models to Thermal Infrared Perception
- Title(参考訳): サーモVL:熱赤外知覚へのビジョンランゲージモデルの拡張
- Authors: Rusiru Thushara, Yasiru Ranasinghe, Jay Paranjape, Vishal M. Patel,
- Abstract要約: 視覚言語モデル(VLM)は、RGB画像から主に学習されるため、低照度で失敗することが多い。
トレーニング可能な熱エンコーダとテキスト誘導デュアルアテンション融合モジュールで冷凍したMomo-7Bバックボーンを増強する波長対応VLMであるThermo-VLを提案する。
実験では、熱のみとRGB+熱的推論タスクに強い効果を示し、急速条件付き多スペクトル核融合の価値を強調した。
- 参考スコア(独自算出の注目度): 45.307537865864994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) often fail under low illumination because their visual grounding is learned predominantly from RGB imagery, whereas thermal infrared preserves complementary scene structure when visible cues degrade. We present Thermo-VL, a wavelength-aware VLM that augments a frozen Molmo-7B backbone with a trainable thermal encoder and a text-guided dual-attention fusion module. Given aligned RGB tokens, thermal tokens, and prompt embeddings, the fusion module conditions thermal features on both language and RGB context, then injects a gated residual into the frozen RGB stream so thermal evidence can be incorporated without disrupting Molmo's pretrained RGB-language interface. We train the model with the standard language-modeling objective together with auxiliary alignment and regularization losses that improve cross-modal grounding and reduce over-reliance on RGB. We also introduce a pixel-aligned RGB-thermal instruction-tuning dataset and Thermo-VL-Bench, a manually screened RGB-thermal VQA benchmark for low-light and cross-spectrum reasoning. Experiments show strong gains on challenging thermal-only and RGB+thermal reasoning tasks, highlighting the value of prompt-conditioned multispectral fusion. Our dataset and code are publicly available at: https://thusharakart.github.io/Thermo-VL
- Abstract(参考訳): 視覚言語モデル(VLM)はRGB画像から主に学習されるため、低照度下では失敗することが多いが、熱赤外は視力低下時に相補的なシーン構造を保っている。
トレーニング可能な熱エンコーダとテキスト誘導デュアルアテンション融合モジュールで冷凍したMomo-7Bバックボーンを増強する波長対応VLMであるThermo-VLを提案する。
整列したRGBトークン、熱トークン、即時埋め込みが与えられた後、融合モジュールは言語とRGBコンテキストの両方で熱的特徴を条件付け、凍結したRGBストリームにゲート残基を注入し、モルモの事前訓練されたRGB言語インターフェースを妨害することなく熱的証拠を組み込むことができる。
我々は,標準言語モデリングの目標と補助的アライメントと正規化の損失を伴ってモデルを訓練し,モダル間接地を改善し,RGBの過度な信頼性を低下させる。
また,低照度およびクロススペクトル推論のためのRGB熱水性VQAベンチマークであるThermo-VL-Benchと画素整列型RGB熱水性インストラクションチューニングデータセットも導入した。
実験では、熱のみとRGB+熱的推論タスクに強い効果を示し、急速条件付き多スペクトル核融合の価値を強調した。
私たちのデータセットとコードは、https://thusharakart.github.io/Thermo-VLで公開されています。
関連論文リスト
- Thermal-Det: Language-Guided Cross-Modal Distillation for Open-Vocabulary Thermal Object Detection [41.947503656624285]
既存のオープンボキャブラリ検出器はRGB画像に焦点を合わせ、熱画像への一般化に失敗した。
熱画像用に調整された第1大言語モデル (LLM) のオープン語彙検出装置であるサーマルデットについて述べる。
論文 参考訳(メタデータ) (2026-05-11T07:41:37Z) - TherA: Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation [12.591408054941027]
TherAは制御可能なRGB-to-TIR翻訳フレームワークで、シーンレベルでもオブジェクトレベルでも多彩で熱可塑性の画像を生成する。
TherAは最先端の翻訳性能を実現し、ゼロショット翻訳性能が改善された。
論文 参考訳(メタデータ) (2026-02-23T01:56:29Z) - ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation [14.108149959967095]
ペアリングRGBサーマルデータは、視覚-サーマル・フュージョンとクロスモダリティ・タスクに不可欠である。
この課題を克服するため、RGB-to-Thermal (RGB-T)イメージ翻訳が有望なソリューションとして登場した。
本研究では,RGB-T画像変換のための適応型フローベース生成モデルであるHeatherGenを提案する。
論文 参考訳(メタデータ) (2025-09-29T14:55:51Z) - Human Activity Recognition using RGB-Event based Sensors: A Multi-modal Heat Conduction Model and A Benchmark Dataset [65.76480665062363]
人間の活動認識は主に、高性能な活動認識を実現するために従来のRGBカメラに依存していた。
照明不足や急激な動きといった現実のシナリオにおける課題は、必然的にRGBカメラの性能を低下させる。
本研究では,RGBとイベントカメラを組み合わせることで,人間の活動認識を再考する。
論文 参考訳(メタデータ) (2025-04-08T09:14:24Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Does Thermal Really Always Matter for RGB-T Salient Object Detection? [153.17156598262656]
本稿では,RGB-T有意物体検出(SOD)タスクを解決するために,TNetというネットワークを提案する。
本稿では,画像のグローバル照度を推定するためのグローバル照度推定モジュールを提案する。
一方, 2段階の局所化と相補化モジュールを導入し, 熱的特徴の物体位置化キューと内部整合キューをRGBモダリティに転送する。
論文 参考訳(メタデータ) (2022-10-09T13:50:12Z) - Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-07T20:26:09Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。