論文の概要: DisasterInsight: A Multimodal Benchmark for Function-Aware and Grounded Disaster Assessment
- arxiv url: http://arxiv.org/abs/2601.18493v1
- Date: Mon, 26 Jan 2026 13:48:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.852062
- Title: DisasterInsight: A Multimodal Benchmark for Function-Aware and Grounded Disaster Assessment
- Title(参考訳): 災害インテリジェンス:機能意識と地盤災害評価のためのマルチモーダルベンチマーク
- Authors: Sara Tehrani, Yonghao Xu, Leif Haglund, Amanda Berg, Michael Felsberg,
- Abstract要約: DisasterInsightは、現実的な災害解析タスクの視覚言語モデル(VLM)を評価するために設計されたベンチマークである。
xBDデータセットを約112Kのビルディングセンタインスタンスに再構成する。
ビル機能分類、被害レベル、災害タイプ分類、数え上げ、人道的評価ガイドラインに沿った構造化されたレポート生成など、複数のタスクにわたるインストラクションの多様性評価をサポートする。
- 参考スコア(独自算出の注目度): 19.434058305975167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Timely interpretation of satellite imagery is critical for disaster response, yet existing vision-language benchmarks for remote sensing largely focus on coarse labels and image-level recognition, overlooking the functional understanding and instruction robustness required in real humanitarian workflows. We introduce DisasterInsight, a multimodal benchmark designed to evaluate vision-language models (VLMs) on realistic disaster analysis tasks. DisasterInsight restructures the xBD dataset into approximately 112K building-centered instances and supports instruction-diverse evaluation across multiple tasks, including building-function classification, damage-level and disaster-type classification, counting, and structured report generation aligned with humanitarian assessment guidelines. To establish domain-adapted baselines, we propose DI-Chat, obtained by fine-tuning existing VLM backbones on disaster-specific instruction data using parameter-efficient Low-Rank Adaptation (LoRA). Extensive experiments on state-of-the-art generic and remote-sensing VLMs reveal substantial performance gaps across tasks, particularly in damage understanding and structured report generation. DI-Chat achieves significant improvements on damage-level and disaster-type classification as well as report generation quality, while building-function classification remains challenging for all evaluated models. DisasterInsight provides a unified benchmark for studying grounded multimodal reasoning in disaster imagery.
- Abstract(参考訳): 衛星画像のタイムリーな解釈は災害対応に不可欠であるが、リモートセンシングのための既存の視覚ベンチマークは、実際の人道的ワークフローで必要とされる機能的理解と命令の堅牢性を見越して、粗いラベルと画像レベルの認識に重点を置いている。
本稿では,現実的な災害解析タスクにおいて,視覚言語モデル(VLM)を評価するために設計されたマルチモーダルベンチマークであるDermaInsightを紹介する。
disasterInsightは、xBDデータセットを約112Kのビル中心のインスタンスに再構成し、ビル機能分類、被害レベルと災害タイプ分類、カウント、人道的評価ガイドラインに沿った構造化レポート生成など、複数のタスクにわたるインストラクションの多様性評価をサポートする。
ドメイン適応ベースラインを確立するために,パラメータ効率の低いローランド適応(LoRA)を用いて,災害固有の命令データに基づいて既存のVLMバックボーンを微調整したDI-Chatを提案する。
最先端の汎用VLMとリモートセンシングVLMの広範囲な実験は、特に損傷理解と構造化レポート生成において、タスク間での大幅なパフォーマンスギャップを明らかにしている。
DI-Chatは、被害レベルおよび災害タイプ分類の大幅な改善とレポート生成品質を実現し、一方、建物機能分類は、すべての評価モデルにおいて依然として困難である。
災害インサイトは、災害画像のマルチモーダル推論を研究するための統一されたベンチマークを提供する。
関連論文リスト
- DisasterVQA: A Visual Question Answering Benchmark Dataset for Disaster Scenes [10.776782815521686]
災害VQAは、現実世界の画像1,395枚と、洪水、山火事、地震などの多様な出来事にまたがる4,405枚の専門家による質問応答からなる。
我々は、7つの最先端のビジョン言語モデルをベンチマークし、問題タイプ、災害カテゴリ、地域、人道的タスクにまたがるパフォーマンスの変動を見出す。
災害VQAは、より堅牢で運用上意味のある災害対応のための視覚言語モデルの開発をガイドする、挑戦的で実用的なベンチマークを提供する。
論文 参考訳(メタデータ) (2026-01-20T10:50:46Z) - Satellite to Street : Disaster Impact Estimator [0.12938914787881173]
本研究は, 衛星画像と衛星画像との協調処理により, 微粒な画素レベルの損傷マップを得るディープラーニングフレームワークを提案する。
このモデルは、局所的な構造的変化とより広い文脈的手がかりの両方をキャプチャするために、拡張された機能融合を備えた修正されたデュアルインプットU-Netアーキテクチャを使用する。
論文 参考訳(メタデータ) (2025-11-24T06:20:40Z) - Rethinking Evaluation of Infrared Small Target Detection [105.59753496831739]
本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。
標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文 参考訳(メタデータ) (2025-09-21T02:45:07Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - One-class Damage Detector Using Deeper Fully-Convolutional Data
Descriptions for Civil Application [0.0]
モデルパラメータを最適化するために、通常の画像を使用することができる点において、一級損傷検出アプローチには利点がある。
本稿では,FCDDをベースラインモデルとして再現した一級損傷検出の汎用アプリケーションを提案する。
論文 参考訳(メタデータ) (2023-03-03T06:27:15Z) - Multi-view deep learning for reliable post-disaster damage
classification [0.0]
本研究は,人工知能(AI)と多視点画像を用いた,より信頼性の高い建築損傷分類を実現することを目的とする。
提案モデルでは, ハリケーン・ハーヴェイに続き, 調査対象の建物について, 専門家ラベル付きジオタグ付き画像を含む偵察視覚データセットを訓練し, 検証した。
論文 参考訳(メタデータ) (2022-08-06T01:04:13Z) - Assessing out-of-domain generalization for robust building damage
detection [78.6363825307044]
建築損傷検出は、衛星画像にコンピュータビジョン技術を適用することで自動化することができる。
モデルは、トレーニングで利用可能な災害画像と、新しいイベントの画像の間の分散の変化に対して堅牢でなければならない。
今後はOOD体制に重点を置くべきだと我々は主張する。
論文 参考訳(メタデータ) (2020-11-20T10:30:43Z) - RescueNet: Joint Building Segmentation and Damage Assessment from
Satellite Imagery [83.49145695899388]
RescueNetは、建物を同時に分割し、個々の建物に対する損傷レベルを評価し、エンドツーエンドでトレーニングできる統一モデルである。
RescueNetは大規模で多様なxBDデータセットでテストされており、従来の手法よりもはるかに優れたセグメンテーションと損傷分類性能を実現している。
論文 参考訳(メタデータ) (2020-04-15T19:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。