論文の概要: WildFireVQA: A Large-Scale Radiometric Thermal VQA Benchmark for Aerial Wildfire Monitoring
- arxiv url: http://arxiv.org/abs/2604.20190v1
- Date: Wed, 22 Apr 2026 05:11:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.971627
- Title: WildFireVQA: A Large-Scale Radiometric Thermal VQA Benchmark for Aerial Wildfire Monitoring
- Title(参考訳): WildFireVQA: 空中ワイルドファイアモニタリングのための大規模放射熱VQAベンチマーク
- Authors: Mobin Habibpour, Niloufar Alipour Talemi, John Spodnik, Camren J. Khoury, Fatemeh Afghah,
- Abstract要約: ワイルドファイア監視には、飛行するプラットフォームからのタイムリーで行動可能な状況認識が必要である。
我々は、RGB画像と放射熱データを統合する空中山火事モニタリングのベンチマークであるWildFireVQAを紹介する。
WildFireVQAには6,097のRGB熱サンプルが含まれており、各サンプルにはRGB画像、カラーマップのサーマルビジュアライゼーション、放射熱TIFFが含まれている。
- 参考スコア(独自算出の注目度): 7.401378781639051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wildfire monitoring requires timely, actionable situational awareness from airborne platforms, yet existing aerial visual question answering (VQA) benchmarks do not evaluate wildfire-specific multimodal reasoning grounded in thermal measurements. We introduce WildFireVQA, a large-scale VQA benchmark for aerial wildfire monitoring that integrates RGB imagery with radiometric thermal data. WildFireVQA contains 6,097 RGB-thermal samples, where each sample includes an RGB image, a color-mapped thermal visualization, and a radiometric thermal TIFF, and is paired with 34 questions, yielding a total of 207,298 multiple-choice questions spanning presence and detection, classification, distribution and segmentation, localization and direction, cross-modal reasoning, and flight planning for operational wildfire intelligence. To improve annotation reliability, we combine multimodal large language model (MLLM)-based answer generation with sensor-driven deterministic labeling, manual verification, and intra-frame and inter-frame consistency checks. We further establish a comprehensive evaluation protocol for representative MLLMs under RGB, Thermal, and retrieval-augmented settings using radiometric thermal statistics. Experiments show that across task categories, RGB remains the strongest modality for current models, while retrieved thermal context yields gains for stronger MLLMs, highlighting both the value of temperature-grounded reasoning and the limitations of existing MLLMs in safety-critical wildfire scenarios. The dataset and benchmark code are open-source at https://github.com/mobiiin/WildFire_VQA.
- Abstract(参考訳): ワイルドファイア監視には、空中プラットフォームからのタイムリーで行動可能な状況認識が必要であるが、既存の空中視覚的質問応答(VQA)ベンチマークでは、熱測定に基づく山火事固有のマルチモーダル推論を評価していない。
我々は、RGB画像と放射熱データを統合する、空中火災モニタリングのための大規模VQAベンチマークであるWildFireVQAを紹介する。
ワイルドファイアVQAには6,097のRGB-熱サンプルが含まれており、各サンプルにはRGB画像、カラーマップのサーマルビジュアライゼーション、および放射熱TIFFが含まれており、34の質問と組み合わせて、存在と検出、分類、分布とセグメンテーション、位置と方向、クロスモーダルな推論、作戦用山火事情報のための飛行計画など、合計207,298の複数の質問が寄せられている。
アノテーションの信頼性を向上させるために,マルチモーダル大言語モデル(MLLM)に基づく回答生成とセンサ駆動型決定論的ラベル付け,手動検証,フレーム内およびフレーム間一貫性チェックを組み合わせる。
さらに,RGB,サーモグラフィ,サーモグラフィ,検索拡張設定に基づく代表MLLMの総合的評価プロトコルをラジオメトリック熱統計量を用いて確立する。
実験により、RGBは現在のモデルにとって最強のモダリティであり、回収された熱コンテキストはより強いMLLMの利得を得られ、安全クリティカルな山火事シナリオにおける既存のMLLMの価値と限界の両方を強調した。
データセットとベンチマークコードはhttps://github.com/mobiiin/WildFire_VQAで公開されている。
関連論文リスト
- Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models [58.46663983451155]
PixSearchは、地域レベルの認識と検索強化推論を統合する、エンドツーエンドのLMM(Large Multimodal Model)である。
エンコーディング中、PixSearchは検索をトリガーする検索>トークンを出力し、クエリのモダリティ(テキスト、画像、リージョン)を選択し、ビジュアルクエリとして直接機能するピクセルレベルのマスクを生成する。
エゴセントリックでエンティティ中心のVQAベンチマークでは、PixSearchは事実整合性と一般化を大幅に改善する。
論文 参考訳(メタデータ) (2026-01-27T00:46:08Z) - FireSentry: A Multi-Modal Spatio-temporal Benchmark Dataset for Fine-Grained Wildfire Spread Forecasting [41.82363110982653]
本稿では,サブメーター空間とサブ秒時間分解能を特徴とする地域規模のマルチモーダル山火事データセットFireSentryを提案する。
FireSentryは、可視および赤外線のビデオストリーム、その場での環境測定、手動で検証されたファイアマスクを提供する。
FireSentry上に構築され、物理に基づく、データ駆動、生成モデルを含む包括的なベンチマークを構築します。
論文 参考訳(メタデータ) (2025-12-03T02:02:47Z) - PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispectral Remote Sensing Imagery [0.0]
迅速かつ正確な山火事検出は、緊急対応と環境管理に不可欠である。
空中飛行と宇宙飛行のミッションでは、リアルタイムアルゴリズムは火災、活動的な火災、および発射後の条件を区別しなければならない。
火の分類を行い,火の放射力(FRP)レグレッションやセグメンテーションを施した2段パイプラインであるPyroFocusを導入する。
論文 参考訳(メタデータ) (2025-12-02T21:59:45Z) - DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding [5.257894673786823]
DetectiumFireは、22.5kの高解像度火災関連画像と2.5kの現実世界火災関連ビデオからなる大規模マルチモーダルデータセットである。
データは従来のコンピュータビジョンラベル(例えば、バウンディングボックス)とシーンを記述する詳細なテキストプロンプトの両方で注釈付けされる。
我々は、オブジェクト検出、拡散ベース画像生成、視覚言語推論など、複数のタスクにまたがるDetectiumFireの有用性を検証する。
論文 参考訳(メタデータ) (2025-11-04T11:33:11Z) - Seeing Heat with Color -- RGB-Only Wildfire Temperature Inference from SAM-Guided Multimodal Distillation using Radiometric Ground Truth [5.343932820859596]
本稿では,RGB入力のみを用いた画素レベルの山火事温度予測とセグメンテーションのための新しいフレームワークSAM-TIFFを紹介する。
対のRGB-サーマル画像とラジオメトリックのTIFF地上真実を訓練したマルチモーダル教師ネットワークは、知識を単調なRGB学生ネットワークに蒸留し、熱センサレス推論を可能にする。
提案手法は,RGB UAVデータから画素あたりの温度レグレッションを初めて行い,最近のFLAME 3データセットに強い一般化を示すものである。
論文 参考訳(メタデータ) (2025-05-03T00:23:11Z) - TS-SatFire: A Multi-Task Satellite Image Time-Series Dataset for Wildfire Detection and Prediction [2.2673203312389423]
2017年1月から2021年10月まで、米国内の山火事をカバーし、3552面の反射率画像と補助データ、合計71GBである。
このデータセットは3つのタスクをサポートする。アクティブファイア検出、毎日の燃えているエリアマッピング、および山火事の進行予測だ。
このデータセットとそのベンチマークは、ディープラーニングを使って山火事の研究を進める基盤を提供する。
論文 参考訳(メタデータ) (2024-12-16T08:40:12Z) - Multi-modal Queried Object Detection in the Wild [72.16067634379226]
MQ-Detは、現実世界のオブジェクト検出のための効率的なアーキテクチャと事前学習戦略設計である。
既存の言語クエリのみの検出器に視覚クエリを組み込む。
MQ-Detのシンプルで効果的なアーキテクチャとトレーニング戦略設計は、ほとんどの言語でクエリされたオブジェクト検出器と互換性がある。
論文 参考訳(メタデータ) (2023-05-30T12:24:38Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z) - Meta-UDA: Unsupervised Domain Adaptive Thermal Object Detection using
Meta-Learning [64.92447072894055]
赤外線(IR)カメラは、照明条件や照明条件が悪ければ頑丈である。
既存のUDA手法を改善するためのアルゴリズムメタ学習フレームワークを提案する。
KAISTおよびDSIACデータセットのための最先端熱検出器を作成した。
論文 参考訳(メタデータ) (2021-10-07T02:28:18Z) - Speak2Label: Using Domain Knowledge for Creating a Large Scale Driver
Gaze Zone Estimation Dataset [55.391532084304494]
ワイルド・データセットのドライバ・ゲイズには、夕方を含む1日の異なる時間に撮影された586の録音が含まれている。
ワイルド・データセットのドライバ・ゲイズには338人の被験者がおり、年齢は18-63歳である。
論文 参考訳(メタデータ) (2020-04-13T14:47:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。