論文の概要: SmokeBench: Evaluating Multimodal Large Language Models for Wildfire Smoke Detection
- arxiv url: http://arxiv.org/abs/2512.11215v1
- Date: Fri, 12 Dec 2025 01:47:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.618307
- Title: SmokeBench: Evaluating Multimodal Large Language Models for Wildfire Smoke Detection
- Title(参考訳): SmokeBench: ワイルドファイア煙検知のためのマルチモーダル大言語モデルの評価
- Authors: Tianye Qi, Weihao Li, Nick Barnes,
- Abstract要約: SmokeBenchは、マルチモーダルな大規模言語モデル(MLLM)による画像内の山火事の煙の認識とローカライズ能力を評価するためのベンチマークである。
Idefics2, Qwen2.5-VL, InternVL3, Unified-IO 2, Grounding DINO, GPT-4o, Gemini-2.5 Pro などのMLLMの評価を行った。
スモークボリュームはモデル性能と強く相関するが、コントラストは比較的小さな役割を果たす。
- 参考スコア(独自算出の注目度): 19.134309978060134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wildfire smoke is transparent, amorphous, and often visually confounded with clouds, making early-stage detection particularly challenging. In this work, we introduce a benchmark, called SmokeBench, to evaluate the ability of multimodal large language models (MLLMs) to recognize and localize wildfire smoke in images. The benchmark consists of four tasks: (1) smoke classification, (2) tile-based smoke localization, (3) grid-based smoke localization, and (4) smoke detection. We evaluate several MLLMs, including Idefics2, Qwen2.5-VL, InternVL3, Unified-IO 2, Grounding DINO, GPT-4o, and Gemini-2.5 Pro. Our results show that while some models can classify the presence of smoke when it covers a large area, all models struggle with accurate localization, especially in the early stages. Further analysis reveals that smoke volume is strongly correlated with model performance, whereas contrast plays a comparatively minor role. These findings highlight critical limitations of current MLLMs for safety-critical wildfire monitoring and underscore the need for methods that improve early-stage smoke localization.
- Abstract(参考訳): 野生の煙は透明で、非晶質で、しばしば雲と視覚的に融合しているため、早期発見は特に困難である。
本研究では,マルチモーダル大規模言語モデル(MLLM)による山火事の煙の認識と局所化能力を評価するベンチマークSmokeBenchを紹介する。
このベンチマークは,(1)煙分類,(2)タイル煙の局所化,(3)格子煙の局所化,(4)煙の検出の4つのタスクで構成されている。
Idefics2, Qwen2.5-VL, InternVL3, Unified-IO 2, Grounding DINO, GPT-4o, Gemini-2.5 Pro などのMLLMの評価を行った。
以上の結果から,広い範囲で煙の存在を分類できるモデルもあるが,全てのモデルでは,特に初期段階において正確な局所化に苦しむモデルが存在することが示唆された。
さらに分析したところ、煙の体積はモデル性能と強く相関していることが分かるが、コントラストは比較的小さな役割を担っている。
これらの知見は, 安全クリティカルな山火事モニタリングにおけるMLLMの限界を浮き彫りにし, 早期煙の局所化を改善する方法の必要性を浮き彫りにした。
関連論文リスト
- VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - MFGDiffusion: Mask-Guided Smoke Synthesis for Enhanced Forest Fire Detection [6.307649189539342]
スモークは山火事の目に見える最初の指標である。
現在の塗装モデルは、高品質な煙の表現を生成するのに限界がある。
森林火災煙画像を生成するための総合的な枠組みを提案する。
論文 参考訳(メタデータ) (2025-07-15T12:25:35Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Adversarial Robustness for Deep Learning-based Wildfire Prediction Models [3.4528046839403905]
本稿では,山火事検出モデルのロバスト性を評価するための最初のモデル非依存フレームワークであるWARP(Wildfire Adversarial Robustness procedure)を紹介する。
WARPは、画像グロバルと局所摂動を通じて敵対的な例を生成することによって、データ多様性の固有の制限に対処する。
WARPを使用して、リアルタイムCNNとTransformerを評価し、主要な脆弱性を明らかにしました。
論文 参考訳(メタデータ) (2024-12-28T04:06:29Z) - Multimodal Wildland Fire Smoke Detection [5.15911752972989]
研究によると、気候変動によって温暖な温度と乾燥状態が生まれ、長い山火事の季節と米国の山火事のリスクが増大する。
スモーキーネット(SmokeyNet)は,森林火災の煙を検出するための時間的情報を用いた深層学習モデルである。
SmokeyNetは、ほんの数分の時間で自動早期通知システムとして機能し、破壊的な山火事との戦いに有用なツールを提供する。
論文 参考訳(メタデータ) (2022-12-29T01:16:06Z) - Image-Based Fire Detection in Industrial Environments with YOLOv4 [53.180678723280145]
この研究は、AIが火災を検出し、認識し、画像ストリーム上のオブジェクト検出を使用して検出時間を短縮する可能性を検討する。
そこで我々は, YOLOv4オブジェクト検出器をベースとした複数のモデルのトレーニングと評価に使用されてきた複数の公開情報源から, 適切なデータを収集, ラベル付けした。
論文 参考訳(メタデータ) (2022-12-09T11:32:36Z) - F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language
Models [54.21757555804668]
F-VLMは,凍結視覚と言語モデルに基づくシンプルなオープン語彙オブジェクト検出手法である。
F-VLMは、知識蒸留や検出調整事前訓練の必要性を排除し、現在の多段階訓練パイプラインを単純化する。
論文 参考訳(メタデータ) (2022-09-30T17:59:52Z) - FIgLib & SmokeyNet: Dataset and Deep Learning Model for Real-Time
Wildland Fire Smoke Detection [0.0]
Fire Ignition Library (FIgLib) は、25,000点近い山火事の煙画像のデータセットである。
SmokeyNetは、リアルタイムの山火事煙検知にカメラ画像からの時間情報を利用する、新しいディープラーニングアーキテクチャである。
FIgLibデータセットでトレーニングすると、SmokeyNetは同等のベースラインを上回り、人間のパフォーマンスに匹敵する。
論文 参考訳(メタデータ) (2021-12-16T03:49:58Z) - City-scale Scene Change Detection using Point Clouds [71.73273007900717]
2つの異なる時間にカメラを設置して撮影した画像を用いて都市の構造変化を検出する手法を提案する。
変化検出のための2点雲の直接比較は、不正確な位置情報のため理想的ではない。
この問題を回避するために,ポイントクラウド上での深層学習に基づく非厳密な登録を提案する。
提案手法は,視点や照明の違いがあっても,シーン変化を効果的に検出できることを示す。
論文 参考訳(メタデータ) (2021-03-26T08:04:13Z) - STCNet: Spatio-Temporal Cross Network for Industrial Smoke Detection [52.648906951532155]
本稿では,産業用煙排出ガスを識別する新しい時空間クロスネットワーク(STCNet)を提案する。
提案するSTCNetは, テクスチャの特徴を抽出する空間的特徴と, 煙の動き情報を捕捉する時間的経路を含む。
STCNetは、RISE産業煙検知データセットにおいて、最も優れた競合相手に対して6.2%の精度で明確な改善を実現していることを示す。
論文 参考訳(メタデータ) (2020-11-10T02:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。