論文の概要: DisasterBench: A Multimodal Benchmark for UAV-Based Disaster Response in Complex Environments
- arxiv url: http://arxiv.org/abs/2606.06217v1
- Date: Thu, 04 Jun 2026 14:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-06 06:55:34.672312
- Title: DisasterBench: A Multimodal Benchmark for UAV-Based Disaster Response in Complex Environments
- Title(参考訳): 複雑な環境下でのUAVによる災害対応のためのマルチモーダルベンチマーク
- Authors: Tan Zhang, Quanyou Li, Lu Zhang, Jun Liu, Xiaofeng Zhu, Ping Hu,
- Abstract要約: DisasterBenchは、複雑な環境でのUAVベースの災害対応のためのマルチステージマルチモーダル推論ベンチマークである。
DisasterVLは3段階のパイプラインで最適化された軽量なマルチモーダルモデルであり、ドメイン命令チューニング、チェーン・オブ・オブ・ソート方式のマルチモーダルアライメント、強化学習に基づくポリシー最適化を組み合わせたものである。
- 参考スコア(独自算出の注目度): 18.846222887851713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When a disaster unfolds, responders must answer not only what is happening, but also why it is happening, what will happen next, and what to do now, often from noisy low-altitude UAV views and under tight on-site compute constraints. However, most existing multimodal benchmarks emphasize perception (e.g., recognition/description), cover limited disaster types, and provide insufficient support for the multi-stage reasoning required in practical emergency response. We introduce DisasterBench, a multi-stage multimodal reasoning benchmark for UAV-Based disaster response in complex environments. DisasterBench spans 14 disaster-related scene types and 9 response-critical tasks across pre-, during-, and post-disaster stages, with fine-grained disaster-task mappings that explicitly test causal attribution, propagation prediction, damage analysis, and decision-oriented reasoning. To enable reasoning on the edge, we further propose DisasterVL, a lightweight multimodal model optimized with a three-stage pipeline combining domain instruction tuning, chain-of-thought-guided multimodal alignment, and reinforcement learning-based policy optimization. Experiments across 21 popular MLLMs show that our 2B-parameter DisasterVL outperforms all evaluated open-source models and substantially narrows the gap to state-of-the-art closed-source models, achieving GPT-4o-comparable reasoning accuracy with superior efficiency. The project page is available at https://github.com/TanmouTT/DisasterBench.
- Abstract(参考訳): 災害が広がると、応答者は、起きていることだけでなく、なぜ起こっているのか、次に何が起こるのか、今すべきことは、うるさい低高度のUAVビューから、厳しいオンサイト計算制約の下で答えなければならない。
しかし、既存のマルチモーダルベンチマークのほとんどは、認識(認識/記述)を強調し、限られた災害タイプをカバーし、実用的な緊急対応に必要な多段階推論を不十分にサポートしている。
複雑な環境下でのUAVに基づく災害対応のためのマルチステージマルチモーダル推論ベンチマークであるDreamaBenchを紹介する。
災害ベンチは、災害に関連する14の現場タイプと9つの対応クリティカルなタスクにまたがっており、因果関係、伝播予測、損傷解析、意思決定指向の推論を明示的にテストする微粒な災害タスクマッピングを備えている。
エッジ上での推論を可能にするために,ドメイン命令チューニング,チェーン・オブ・ソート誘導型マルチモーダルアライメント,強化学習に基づくポリシ最適化を組み合わせた,3段階のパイプラインを最適化した軽量マルチモーダルモデルであるDermaVLを提案する。
21のMLLMを対象とした実験により、我々の2Bパラメータ災害VLは評価済みのオープンソースモデルよりも優れており、最先端のクローズドソースモデルとのギャップを大幅に狭め、GPT-4o比較可能な推論精度を優れた効率で達成していることがわかった。
プロジェクトページはhttps://github.com/TanmouTT/DisasterBench.comで公開されている。
関連論文リスト
- DisasterBench: Benchmarking LLM Planning under Typed Tool Interface Constraints [29.573427850164222]
災害は深刻な社会的影響を引き起こし、異種AIツールの迅速な調整を要求する。
効果的な調整には意味論的に妥当なツールを選択する以上のことが必要です。
本稿では,構造化マルチエージェント計画の評価ベンチマークであるDreamaBenchを紹介する。
論文 参考訳(メタデータ) (2026-05-27T04:50:23Z) - Can LLM Agents Respond to Disasters? Benchmarking Heterogeneous Geospatial Reasoning in Emergency Operations [55.251494694783894]
災害対応エージェントベンチマーク(DORA)は、エンド・ツー・エンドの災害対応のための最初のエージェントベンチマークである。
タスクは、災害認識、空間関係分析、救助・避難計画、時間的進化推論、マルチモーダルレポート合成という、災害対応パイプラインをカバーする5つの次元にまたがる。
DORAは、運用上の信頼性の高い災害対応エージェントのための厳格なテストベッドを確立する。
論文 参考訳(メタデータ) (2026-05-12T06:57:41Z) - CAMD: Coverage-Aware Multimodal Decoding for Efficient Reasoning of Multimodal Large Language Models [48.33850939857255]
我々は、サンプリングカバレッジ、インスタンスの難易度、残留リスクをリンクする理論的枠組みを開発する。
解析の結果,マルチモーダル推論は重み付き難易度分布を示すことがわかった。
推定不確実性に応じて動的に割り当てる適応型推論機構であるCoverage-Aware Multimodal Decoding (CAMD)を提案する。
論文 参考訳(メタデータ) (2026-03-16T02:31:03Z) - TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models [52.21298691935726]
時系列で推論する能力は、ジェネラリストモデルが現実的な問題を解決するための基本的なスキルである。
このギャップを埋めるために、時系列推論機能の全スペクトルをストレステストするために設計された総合的なベンチマークであるTSRBenchを紹介する。
論文 参考訳(メタデータ) (2026-01-26T18:04:54Z) - DisasterInsight: A Multimodal Benchmark for Function-Aware and Grounded Disaster Assessment [19.434058305975167]
DisasterInsightは、現実的な災害解析タスクの視覚言語モデル(VLM)を評価するために設計されたベンチマークである。
xBDデータセットを約112Kのビルディングセンタインスタンスに再構成する。
ビル機能分類、被害レベル、災害タイプ分類、数え上げ、人道的評価ガイドラインに沿った構造化されたレポート生成など、複数のタスクにわたるインストラクションの多様性評価をサポートする。
論文 参考訳(メタデータ) (2026-01-26T13:48:11Z) - RAPTOR-AI for Disaster OODA Loop: Hierarchical Multimodal RAG with Experience-Driven Agentic Decision-Making [0.0]
本研究は, 災害対応の3段階, 初期救助, 中期復旧, 長期復興を支援するために設計されたエージェント型検索・拡張生成フレームワークを紹介する。
頑健なマルチモーダルグラウンドを実現するために,テキスト災害マニュアル,歴史的教訓,航空・地上レベルの画像を統合した階層的知識基盤を構築した。
提案システムは,BLIPベースの画像キャプション,ColVBERT埋め込み,長文要約を用いて,46の津波関連PDF(2,378ページ)を処理するオープンソースのマルチモーダル実装に基づいている。
論文 参考訳(メタデータ) (2026-01-18T10:58:41Z) - Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method [96.63801368613177]
本稿では,記述的理解から構造化多段階推論への映像異常解析を向上するタスクを提案する。
我々は8,641本のビデオからなる新しいデータセットを提示し、合計5万本以上のサンプルを作成し、ビデオ異常理解のための最大のデータセットの1つである。
提案したタスクとデータセットに基づいて,適応的階層的推論とリスク認識意思決定をサポートする,Vad-R1-Plusと呼ばれるエンドツーエンドのMLLMベースのVARモデルを開発する。
論文 参考訳(メタデータ) (2026-01-15T08:09:04Z) - Think First, Assign Next (ThiFAN-VQA): A Two-stage Chain-of-Thought Framework for Post-Disaster Damage Assessment [0.0]
災害時における視覚的質問応答(VQA)のための2段階推論に基づくフレームワークであるThiFAN-VQAを提案する。
カスタム情報検索システム、ドメイン固有のプロンプト、推論誘導型回答選択を統合することで、ThiFAN-VQAはゼロショットと教師付きメソッドのギャップを埋める。
FloodNetとRescueNet-VQAの実験は、洪水やハリケーンに影響を受けた地域のUAVベースのデータセットで、ThiFAN-VQAがより優れた精度、解釈可能性、適応性を実現することを実証している。
論文 参考訳(メタデータ) (2025-11-24T14:32:07Z) - Directional Reasoning Injection for Fine-Tuning MLLMs [51.53222423215055]
マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。
この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-10-16T18:06:46Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - A Multi-constraint and Multi-objective Allocation Model for Emergency Rescue in IoT Environment [3.8572535126902676]
我々はMSGWFLM(Multi-Objective Shuffled Gray Froging Model)を開発した。
この多目的リソース割り当てモデルは、28の多様な課題に対して厳格にテストされている。
その効果は複雑で多サイクルの緊急救助シナリオで特に顕著である。
論文 参考訳(メタデータ) (2024-03-15T13:42:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。