論文の概要: Automated Wildfire Damage Assessment from Multi view Ground level Imagery Via Vision Language Models
- arxiv url: http://arxiv.org/abs/2509.01895v1
- Date: Tue, 02 Sep 2025 02:34:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.884205
- Title: Automated Wildfire Damage Assessment from Multi view Ground level Imagery Via Vision Language Models
- Title(参考訳): 多視点地上画像を用いた視覚言語モデルによる自動火災被害評価
- Authors: Miguel Esparza, Archit Gupta, Ali Mostafavi, Kai Yin, Yiming Xiao,
- Abstract要約: 本研究では、事前学習された視覚言語モデル(VLM)を利用して、地上レベルの画像から損傷を分類する新しいゼロショットフレームワークを提案する。
カリフォルニア州の2025年イートン火災とパリセード火災に適用される2つのパイプライン,VLM (Pipeline A) と VLM + large language model (LLM) アプローチを提案し,評価した。
- 参考スコア(独自算出の注目度): 8.161606587494903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The escalating intensity and frequency of wildfires demand innovative computational methods for rapid and accurate property damage assessment. Traditional methods are often time consuming, while modern computer vision approaches typically require extensive labeled datasets, hindering immediate post-disaster deployment. This research introduces a novel, zero-shot framework leveraging pre-trained vision language models (VLMs) to classify damage from ground-level imagery. We propose and evaluate two pipelines applied to the 2025 Eaton and Palisades fires in California, a VLM (Pipeline A) and a VLM + large language model (LLM) approach (Pipeline B), that integrate structured prompts based on specific wildfire damage indicators. A primary scientific contribution of this study is demonstrating the VLMs efficacy in synthesizing information from multiple perspectives to identify nuanced damage, a critical limitation in existing literature. Our findings reveal that while single view assessments struggled to classify affected structures (F1 scores ranging from 0.225 to 0.511), the multi-view analysis yielded dramatic improvements (F1 scores ranging from 0.857 to 0.947). Moreover, the McNemar test confirmed that pipelines with a multi-view image assessment yields statistically significant classification improvements; however, the improvements this research observed between Pipeline A and B were not statistically significant. Thus, future research can explore the potential of LLM prompting in damage assessment. The practical contribution is an immediately deployable, flexible, and interpretable workflow that bypasses the need for supervised training, significantly accelerating triage and prioritization for disaster response practitioners.
- Abstract(参考訳): 森林火災のエスカレート強度と頻度は、迅速かつ正確な被害評価のための革新的な計算方法を必要とする。
従来の手法は時間を要することが多いが、現代のコンピュータビジョンのアプローチは通常、広範囲のラベル付きデータセットを必要とするため、ディスアスター直後のデプロイメントを妨げている。
本研究では、事前学習された視覚言語モデル(VLM)を利用して、地上レベルの画像から損傷を分類する新しいゼロショットフレームワークを提案する。
カリフォルニア州の2025年イートン火災とパリセード火災に適用された2つのパイプライン, VLM (Pipeline A) と VLM + Large Language Model (LLM) アプローチ (Pipeline B) を提案し,その評価を行った。
本研究の主な科学的貢献は,複数視点からの情報の合成におけるVLMの有効性を示すことであり,既存の文献における限界であるニュアンスド損傷の同定である。
その結果, 単視点評価では影響構造物の分類が困難であった(F1スコアは0.225から0.511まで)が, 多視点分析では劇的な改善がみられた(F1スコアは0.857から0.947まで)。
さらに、McNemarテストでは、マルチビュー画像評価のパイプラインが統計的に有意な分類改善をもたらすことを確認したが、パイプラインAとBの間で観測された改良は統計的に有意ではなかった。
したがって、今後の研究は、損傷評価を急ぐLLMの可能性を探究することができる。
実践的な貢献は、即時にデプロイ可能で、柔軟で、解釈可能なワークフローであり、教師付きトレーニングの必要性を回避し、災害対応実践者のトリアージと優先順位付けを著しく加速する。
関連論文リスト
- FASTopoWM: Fast-Slow Lane Segment Topology Reasoning with Latent World Models [53.91899980806139]
レーンセグメント推論は、総合的な鳥眼ビュー(BEV)ロードシーン理解を提供する。
ストリームベースの時間的伝搬法は,クエリレベルとBEVレベルの両方に時間的手がかりを組み込むことで,有望な結果を示した。
FASTopoWMは、潜在世界モデルで拡張された新しい高速スローレーンセグメント推論フレームワークである。
論文 参考訳(メタデータ) (2025-07-31T08:12:56Z) - Visual hallucination detection in large vision-language models via evidential conflict [24.465497252040294]
Dempster-Shafer理論(DST)に基づく不確実性推定によるLVLMの視覚幻覚検出法
そこで本研究では,LVLMの視覚幻覚検出手法として,DST(Dempster-Shafer theory)を用いた第1次視覚幻覚検出法を提案する。
論文 参考訳(メタデータ) (2025-06-24T11:03:10Z) - Hyperlocal disaster damage assessment using bi-temporal street-view imagery and pre-trained vision models [13.378498271374662]
本研究の目的は,双方向のストリートビュー画像と高度な事前学習型視覚モデルを用いて,局地的かつ地上的な災害被害を推定することである。
Swin Transformerベースラインで66.14%の精度が、デュアルチャネルのFeature-Fusion ConvNeXtモデルで77.11%に向上した。
論文 参考訳(メタデータ) (2025-04-12T03:52:31Z) - Cyclic Contrastive Knowledge Transfer for Open-Vocabulary Object Detection [11.497620257835964]
我々は、余分な監督なしに訓練されたCCKT-Detを提案する。
提案フレームワークは,視覚言語モデル(VLM)から抽出した言語クエリと視覚領域の特徴から,循環的かつ動的に知識を伝達する。
CCKT-Detは、VLMの規模が大きくなるにつれて常に性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-14T02:04:28Z) - DeepDamageNet: A two-step deep-learning model for multi-disaster building damage segmentation and classification using satellite imagery [12.869300064524122]
本稿では, 損傷評価, セグメンテーション, 分類において, ディープラーニングモデルによる2つの重要な課題を遂行するソリューションを提案する。
我々の最良のモデルは、建物識別セマンティックセグメンテーション畳み込みニューラルネットワーク(CNN)と建物損傷分類CNNを組み合わせ、合計F1スコアは0.66である。
本モデルでは比較的精度の高い建物を同定することができたが,災害タイプによる被害の分類は困難であることが判明した。
論文 参考訳(メタデータ) (2024-05-08T04:21:03Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z) - AB2CD: AI for Building Climate Damage Classification and Detection [0.0]
本研究では, 自然災害の文脈において, 建物の損傷評価を正確に行うための深層学習手法の実装について検討する。
我々は,低品質・騒音ラベルの影響を考慮しつつ,新たな災害・地域への一般化の課題に取り組む。
我々の研究結果は、気候変動によって引き起こされる極端気象事象の影響評価を強化するための高度なAIソリューションの可能性と限界を示している。
論文 参考訳(メタデータ) (2023-09-03T03:37:04Z) - Open Vocabulary Object Detection with Proposal Mining and Prediction
Equalization [73.14053674836838]
Open-vocabulary Object Detection (OVD)は、学習語彙以外の新しいカテゴリのオブジェクトを検出するために、語彙サイズを拡大することを目的としている。
最近の研究は、事前訓練された視覚言語モデルにおける豊富な知識に頼っている。
本稿では,提案するマイニングと予測等化を備えた新しいOVDフレームワークMEDetを提案する。
論文 参考訳(メタデータ) (2022-06-22T14:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。