論文の概要: DisasterVQA: A Visual Question Answering Benchmark Dataset for Disaster Scenes
- arxiv url: http://arxiv.org/abs/2601.13839v1
- Date: Tue, 20 Jan 2026 10:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.272599
- Title: DisasterVQA: A Visual Question Answering Benchmark Dataset for Disaster Scenes
- Title(参考訳): DisasterVQA: 災害現場のベンチマークデータセットに対する視覚的質問
- Authors: Aisha Al-Mohannadi, Ayisha Firoz, Yin Yang, Muhammad Imran, Ferda Ofli,
- Abstract要約: 災害VQAは、現実世界の画像1,395枚と、洪水、山火事、地震などの多様な出来事にまたがる4,405枚の専門家による質問応答からなる。
我々は、7つの最先端のビジョン言語モデルをベンチマークし、問題タイプ、災害カテゴリ、地域、人道的タスクにまたがるパフォーマンスの変動を見出す。
災害VQAは、より堅牢で運用上意味のある災害対応のための視覚言語モデルの開発をガイドする、挑戦的で実用的なベンチマークを提供する。
- 参考スコア(独自算出の注目度): 10.776782815521686
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Social media imagery provides a low-latency source of situational information during natural and human-induced disasters, enabling rapid damage assessment and response. While Visual Question Answering (VQA) has shown strong performance in general-purpose domains, its suitability for the complex and safety-critical reasoning required in disaster response remains unclear. We introduce DisasterVQA, a benchmark dataset designed for perception and reasoning in crisis contexts. DisasterVQA consists of 1,395 real-world images and 4,405 expert-curated question-answer pairs spanning diverse events such as floods, wildfires, and earthquakes. Grounded in humanitarian frameworks including FEMA ESF and OCHA MIRA, the dataset includes binary, multiple-choice, and open-ended questions covering situational awareness and operational decision-making tasks. We benchmark seven state-of-the-art vision-language models and find performance variability across question types, disaster categories, regions, and humanitarian tasks. Although models achieve high accuracy on binary questions, they struggle with fine-grained quantitative reasoning, object counting, and context-sensitive interpretation, particularly for underrepresented disaster scenarios. DisasterVQA provides a challenging and practical benchmark to guide the development of more robust and operationally meaningful vision-language models for disaster response. The dataset is publicly available at https://zenodo.org/records/18267770.
- Abstract(参考訳): ソーシャルメディアの画像は、自然災害や人的災害の際の状況情報の低遅延ソースを提供し、迅速な被害評価と対応を可能にしている。
Visual Question Answering (VQA) は汎用ドメインでは高い性能を示したが、災害対応に必要な複雑で安全に重要な推論には適していない。
本稿では,危機状況における認識と推論のためのベンチマークデータセットであるDreamaVQAを紹介する。
災害VQAは、現実世界の画像1,395枚と、洪水、山火事、地震などの多様な出来事にまたがる4,405枚の専門家による質問応答からなる。
FEMA ESFやOCHA MIRAといった人道的枠組みに基づいており、このデータセットにはバイナリ、複数選択、状況認識と運用上の意思決定タスクに関するオープンな質問が含まれている。
我々は、7つの最先端のビジョン言語モデルをベンチマークし、問題タイプ、災害カテゴリ、地域、人道的タスクにまたがるパフォーマンスの変動を見出す。
モデルは二分問題に対して高い精度を達成するが、細かな量的推論、オブジェクトの数え上げ、文脈に敏感な解釈に苦しむ。
災害VQAは、より堅牢で運用上意味のある災害対応のための視覚言語モデルの開発をガイドする、挑戦的で実用的なベンチマークを提供する。
データセットはhttps://zenodo.org/records/18267770で公開されている。
関連論文リスト
- AIFloodSense: A Global Aerial Imagery Dataset for Semantic Segmentation and Understanding of Flooded Environments [1.381010753883328]
AIFloodSenseは、64か国と6大陸にわたる230の異なる洪水イベントの470の高解像度画像からなる、包括的で公開可能な航空画像データセットである。
以前のベンチマークとは異なり、AIFloodSenseはグローバルな多様性と時間的関連性(2022-2024)を確保し、3つの補完的なタスクをサポートする。
最新のアーキテクチャを使って、すべてのタスクのベースラインベンチマークを確立し、データセットの複雑さとその価値を実証します。
論文 参考訳(メタデータ) (2025-12-19T10:34:45Z) - DisasterM3: A Remote Sensing Vision-Language Dataset for Disaster Damage Assessment and Response [36.84140335631884]
DisasterM3は、世界規模の災害評価と対応のためのビジョン言語データセットである。
災害M3には、26,988のバイテンポラル衛星画像と5大陸にまたがる123kの命令対が含まれる。
現実世界のシナリオに基づいて、DeramM3は9つの災害関連視覚認識と推論タスクを含んでいる。
論文 参考訳(メタデータ) (2025-05-27T12:16:07Z) - BRIGHT: A globally distributed multimodal building damage assessment dataset with very-high-resolution for all-weather disaster response [50.76124284445902]
ビル被害評価(BDA)は、人的被害を減らすために災害後の重要な能力である。
近年の研究では、目に見えない災害事象の正確なマッピングを実現するためのAIモデルの開発に焦点が当てられている。
本稿では, veRy-hIGH-resoluTion Optical and SAR image (BRIGHT) を用いたBDAデータセットを提案する。
論文 参考訳(メタデータ) (2025-01-10T14:57:18Z) - CrisisSense-LLM: Instruction Fine-Tuned Large Language Model for Multi-label Social Media Text Classification in Disaster Informatics [50.122541222825156]
本研究では,事前学習型大規模言語モデル(LLM)の強化による災害テキスト分類への新たなアプローチを提案する。
本手法では,災害関連ツイートから包括的インストラクションデータセットを作成し,それをオープンソース LLM の微調整に用いる。
この微調整モデルでは,災害関連情報の種類,情報化,人的援助の関与など,複数の側面を同時に分類することができる。
論文 参考訳(メタデータ) (2024-06-16T23:01:10Z) - Generalizable Disaster Damage Assessment via Change Detection with Vision Foundation Model [17.016411785224317]
DAVI(Disaster Assessment with Vision foundation model)は,ドメインの格差に対処し,ターゲット領域に接地トラストラベルを必要とせずに建物レベルで構造的損傷を検出する手法である。
DAVIは、ソース領域で訓練されたモデルからのタスク固有の知識と、イメージセグメンテーションモデルからのタスク非依存の知識を組み合わせて、ターゲット領域の潜在的な損傷を示す擬似ラベルを生成する。
次に、2段階の精錬プロセスを使用し、ピクセルレベルと画像レベルの両方で動作し、災害被害地域の変化を正確に識別する。
論文 参考訳(メタデータ) (2024-06-12T09:21:28Z) - CrisisMatch: Semi-Supervised Few-Shot Learning for Fine-Grained Disaster
Tweet Classification [51.58605842457186]
半教師付き, 少数ショットの学習環境下で, 微粒な災害ツイート分類モデルを提案する。
私たちのモデルであるCrisisMatchは、ラベルなしデータと大量のラベルなしデータを用いて、ツイートを関心の細かいクラスに効果的に分類する。
論文 参考訳(メタデータ) (2023-10-23T07:01:09Z) - Assessing out-of-domain generalization for robust building damage
detection [78.6363825307044]
建築損傷検出は、衛星画像にコンピュータビジョン技術を適用することで自動化することができる。
モデルは、トレーニングで利用可能な災害画像と、新しいイベントの画像の間の分散の変化に対して堅牢でなければならない。
今後はOOD体制に重点を置くべきだと我々は主張する。
論文 参考訳(メタデータ) (2020-11-20T10:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。