論文の概要: ThermEval: A Structured Benchmark for Evaluation of Vision-Language Models on Thermal Imagery
- arxiv url: http://arxiv.org/abs/2602.14989v1
- Date: Mon, 16 Feb 2026 18:16:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.575626
- Title: ThermEval: A Structured Benchmark for Evaluation of Vision-Language Models on Thermal Imagery
- Title(参考訳): ThermEval: 熱画像の視覚言語モデル評価のための構造化ベンチマーク
- Authors: Ayush Shrivastava, Kirtan Gangani, Laksh Jain, Mayank Goel, Nipun Batra,
- Abstract要約: ヴィジュアル言語モデル(VLM)はRGB画像において高い性能を達成するが、熱画像には一般化しない。
サーマルセンシングは、夜間監視、捜索救助、自律運転、医療スクリーニングなど、可視光が失敗する状況において重要な役割を果たす。
本稿ではサーマルビジョン言語理解に必要な基礎的プリミティブを評価するベンチマークであるThermEval-Bを紹介する。
- 参考スコア(独自算出の注目度): 11.547362584832769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language models (VLMs) achieve strong performance on RGB imagery, but they do not generalize to thermal images. Thermal sensing plays a critical role in settings where visible light fails, including nighttime surveillance, search and rescue, autonomous driving, and medical screening. Unlike RGB imagery, thermal images encode physical temperature rather than color or texture, requiring perceptual and reasoning capabilities that existing RGB-centric benchmarks do not evaluate. We introduce ThermEval-B, a structured benchmark of approximately 55,000 thermal visual question answering pairs designed to assess the foundational primitives required for thermal vision language understanding. ThermEval-B integrates public datasets with our newly collected ThermEval-D, the first dataset to provide dense per-pixel temperature maps with semantic body-part annotations across diverse indoor and outdoor environments. Evaluating 25 open-source and closed-source VLMs, we find that models consistently fail at temperature-grounded reasoning, degrade under colormap transformations, and default to language priors or fixed responses, with only marginal gains from prompting or supervised fine-tuning. These results demonstrate that thermal understanding requires dedicated evaluation beyond RGB-centric assumptions, positioning ThermEval as a benchmark to drive progress in thermal vision language modeling.
- Abstract(参考訳): ヴィジュアル言語モデル(VLM)はRGB画像において高い性能を達成するが、熱画像には一般化しない。
サーマルセンシングは、夜間監視、捜索救助、自動運転、医療スクリーニングなど、可視光が失敗する状況において重要な役割を担っている。
RGB画像とは異なり、サーマルイメージは色やテクスチャではなく物理的温度をエンコードし、既存のRGB中心のベンチマークでは評価されない知覚的および推論能力を必要とする。
サーマルビジョン言語理解に必要な基礎的プリミティブを評価するために設計された,約55,000のサーマルビジュアル質問応答ペアの構造化ベンチマークであるThermEval-Bを紹介する。
ThermEval-Bは、新たに収集したThermEval-Dとパブリックデータセットを統合し、さまざまな屋内および屋外環境にわたるセマンティックボディパートアノテーションを備えた、ピクセルごとの高密度な温度マップを提供する最初のデータセットです。
25個のオープンソースおよびクローズドソースのVLMを評価すると、モデルが常に温度グラウンドの推論で失敗し、カラーマップ変換の下で劣化し、デフォルトは言語前処理や固定応答であり、微調整のプロンプトや監督による限界利得しか得られないことが分かる。
これらの結果から,サーマルビジョン言語モデリングの進展を推し進めるベンチマークとしてThermEvalを位置づけ,RGB中心の仮定を超える専門的な評価が必要であることが示唆された。
関連論文リスト
- GenColorBench: A Color Evaluation Benchmark for Text-to-Image Generation Models [61.786094845872576]
GenColorBenchは、テキストから画像までのカラー生成のための、最初の総合的なベンチマークである。
I SCC-NBS や CSS3/X11 などのカラーシステムにも採用されている。
400以上の色をカバーする44K色のプロンプトによって、知覚的および自動評価を通じてモデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2025-10-23T14:12:55Z) - ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation [14.108149959967095]
ペアリングRGBサーマルデータは、視覚-サーマル・フュージョンとクロスモダリティ・タスクに不可欠である。
この課題を克服するため、RGB-to-Thermal (RGB-T)イメージ翻訳が有望なソリューションとして登場した。
本研究では,RGB-T画像変換のための適応型フローベース生成モデルであるHeatherGenを提案する。
論文 参考訳(メタデータ) (2025-09-29T14:55:51Z) - RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models [11.050867144875435]
RGB-Th-Benchは、視覚言語モデル(VLM)によるRGB-熱画像ペアの理解能力を評価するために設計された最初のベンチマークである。
我々は、19の最先端VLMに対して広範囲な評価を行い、RGB-サーマル理解における大きな性能差を明らかにした。
以上の結果から, 最強モデルでさえ熱画像の理解に苦慮し, 性能はRGBベースの能力に強く制約されていることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-25T13:43:47Z) - ThermoNeRF: Joint RGB and Thermal Novel View Synthesis for Building Facades using Multimodal Neural Radiance Fields [5.66229031510643]
熱環境の再構築は、建築エネルギー消費の分析や非破壊的なインフラ試験の実行など、様々な用途において大きな可能性を秘めている。
既存の手法は通常、密集したシーン計測を必要とし、しばしばRGBの画像を3次元の幾何学的再構成に頼り、再建後の熱情報を投影する。
本研究では,新しいRGBとシーンの熱像を共同で描画するニューラルラジアンス場に基づく新しいアプローチであるThermoNeRFと,建築ファサードの8つのシーンと日常の8つのシーンからなる2つのRGB+熱画像のデータセットであるThermoScenesを提案する。
論文 参考訳(メタデータ) (2024-03-18T18:10:34Z) - Does Thermal Really Always Matter for RGB-T Salient Object Detection? [153.17156598262656]
本稿では,RGB-T有意物体検出(SOD)タスクを解決するために,TNetというネットワークを提案する。
本稿では,画像のグローバル照度を推定するためのグローバル照度推定モジュールを提案する。
一方, 2段階の局所化と相補化モジュールを導入し, 熱的特徴の物体位置化キューと内部整合キューをRGBモダリティに転送する。
論文 参考訳(メタデータ) (2022-10-09T13:50:12Z) - Maximizing Self-supervision from Thermal Image for Effective
Self-supervised Learning of Depth and Ego-motion [78.19156040783061]
熱画像からの深度とエゴモーションの自己教師付き学習は、困難なシナリオ下で強い堅牢性と信頼性を示す。
弱いコントラスト、ぼやけたエッジ、ノイズなどの固有の熱画像特性は、熱画像から効果的な自己スーパービジョンを生成するために障害となる。
本研究では,時間的一貫性を維持しつつ,全体構造,コントラスト,詳細などの画像情報を大幅に向上させる有効熱画像マッピング手法を提案する。
論文 参考訳(メタデータ) (2022-01-12T09:49:24Z) - Meta-UDA: Unsupervised Domain Adaptive Thermal Object Detection using
Meta-Learning [64.92447072894055]
赤外線(IR)カメラは、照明条件や照明条件が悪ければ頑丈である。
既存のUDA手法を改善するためのアルゴリズムメタ学習フレームワークを提案する。
KAISTおよびDSIACデータセットのための最先端熱検出器を作成した。
論文 参考訳(メタデータ) (2021-10-07T02:28:18Z) - A Large-Scale, Time-Synchronized Visible and Thermal Face Dataset [62.193924313292875]
DEVCOM Army Research Laboratory Visible-Thermal Faceデータセット(ARL-VTF)を発表します。
395人の被験者から50万枚以上の画像が得られたARL-VTFデータセットは、これまでで最大の可視画像とサーマルフェイス画像の収集データだ。
本論文では,ALL-VTFデータセットを用いたサーマルフェースランドマーク検出とサーマル・トゥ・ヴィジブルフェース検証のベンチマーク結果と分析について述べる。
論文 参考訳(メタデータ) (2021-01-07T17:17:12Z) - Exploring Thermal Images for Object Detection in Underexposure Regions
for Autonomous Driving [67.69430435482127]
アンダーエクスポージャー地域は、安全な自動運転のための周囲の完全な認識を構築するのに不可欠である。
サーマルカメラが利用可能になったことで、他の光学センサーが解釈可能な信号を捉えていない地域を探索するための重要な代替手段となった。
本研究は,可視光画像から熱画像へ学習を伝達するためのスタイル伝達手法を用いたドメイン適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-01T09:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。