論文の概要: Can LLM Agents Respond to Disasters? Benchmarking Heterogeneous Geospatial Reasoning in Emergency Operations
- arxiv url: http://arxiv.org/abs/2605.11633v1
- Date: Tue, 12 May 2026 06:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.647215
- Title: Can LLM Agents Respond to Disasters? Benchmarking Heterogeneous Geospatial Reasoning in Emergency Operations
- Title(参考訳): LLMエージェントは災害に応答できるか?
- Authors: Junjue Wang, Weihao Xuan, Heli Qi, Pengyu Dai, Kunyi Liu, Hongruixuan Chen, Zhuo Zheng, Junshi Xia, Stefano Ermon, Naoto Yokoya,
- Abstract要約: 災害対応エージェントベンチマーク(DORA)は、エンド・ツー・エンドの災害対応のための最初のエージェントベンチマークである。
タスクは、災害認識、空間関係分析、救助・避難計画、時間的進化推論、マルチモーダルレポート合成という、災害対応パイプラインをカバーする5つの次元にまたがる。
DORAは、運用上の信頼性の高い災害対応エージェントのための厳格なテストベッドを確立する。
- 参考スコア(独自算出の注目度): 55.251494694783894
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Operational disaster response goes beyond damage assessment, requiring responders to integrate multi-sensor signals, reason over road networks, populations and key facilities, plan evacuations, and produce actionable reports. However, prior work largely isolates remote-sensing perception or evaluates generic tool use, leaving the end-to-end workflows of emergency operations underexplored. In this paper, we introduce Disaster Operational Response Agent benchmark (DORA), the first agentic benchmark for end-to-end disaster response: 515 expert-authored tasks across 45 real-world disaster events spanning 10 types, paired with expert-verified, replayable gold trajectories totaling 3,500 tool-call steps. Tasks span five dimensions that cover the operational disaster-response pipeline: disaster perception, spatial relational analysis, rescue and evacuation planning, temporal evolution reasoning, and multi-modal report synthesis. Agents compose calls from a 108-tool MCP library over heterogeneous geospatial data: optical, SAR, and multi-spectral imagery across single-, bi-, and multi-temporal sequences (0.015-10m GSD), complemented by elevation and social vector layers. We comprehensively evaluate 13 frontier LLMs on our benchmark, revealing three persistent challenges: 1) disaster-domain grounding exposes unique failure modes (damage-semantic grounding, sensor-modality mismatch, and disaster-pipeline composition); 2) agents are doubly bottlenecked by tool selection and argument grounding, where gold tool-order hints improve accuracy by only 1.08-4.40%, and alternative scaffolds yield at most a 3.24% gain; 3) compositional fragility scales with trajectory length, the agent-to-gold gap widening from 7% to 56% on long pipelines. DORA establishes a rigorous testbed for operationally reliable disaster-response agents.
- Abstract(参考訳): 業務上の災害対応は、被害評価以上のもので、応答者にはマルチセンサー信号の統合、道路網上の理由付け、人口と主要施設の計画、避難計画、行動可能な報告を要求される。
しかしながら、事前の作業は、リモートセンシングの認識をほとんど分離したり、汎用ツールの使用を評価したりし、緊急操作のエンドツーエンドのワークフローを過小評価する。
本稿では,災害対応のための最初のエージェントベンチマークである災害時対応エージェントベンチマーク(DORA: Disaster Operational Response Agent benchmark)を紹介する。
タスクは、災害認識、空間関係分析、救助と避難計画、時間的進化の推論、マルチモーダルレポート合成という、災害対応パイプラインをカバーする5つの次元にまたがる。
エージェントは、高度と社会ベクター層を補完する1,2,2,2,3の時系列(0.015-10m GSD)にわたる光学、SAR、マルチスペクトル画像という異種地理空間データ上の108ツールのMPPライブラリからの呼び出しを構成する。
我々は、ベンチマークで13のフロンティアLCMを総合的に評価し、3つの永続的な課題を明らかにした。
1)災害領域の接地は、独自の障害モード(損傷・意味的接地、センサ・モダリティミスマッチ、災害・パイプ構成)を露呈する。
2) エージェントは,金の工具順序のヒントが1.08-4.40%の精度を向上し,代替の足場が少なくとも3.24%の利得を得るという,ツールの選択と議論の根拠によって2倍のボトルネックを受ける。
3) 組成の不安定度は軌跡長で, エージェント・ツー・ゴールドギャップは長さパイプラインで7%から56%に拡大した。
DORAは、運用上の信頼性の高い災害対応エージェントのための厳格なテストベッドを確立する。
関連論文リスト
- Agentic Adversarial Rewriting Exposes Architectural Vulnerabilities in Black-Box NLP Pipelines [34.37967130277969]
本稿では,意味摂動空間で動作する2エージェント回避フレームワークを提案する。
現代大言語モデル(LLM)ベースのシステムでは、普及率は19.95から40.34%である。
パターンインフォームド・ディフェンスは回避率を65.18%まで下げる。
論文 参考訳(メタデータ) (2026-04-26T00:58:36Z) - ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis [96.92417622318267]
ATBenchは、エージェント安全性の構造化、多様性、現実的な評価のための軌道レベルのベンチマークである。
リスクソース、障害モード、現実世界の危害の3つの側面に沿ってエージェント的リスクを編成する。
1000個の軌道(安全503個、安全497個)があり、平均9.01ターンと3.95kトークンがあり、2,084個のツールにまたがるプールから1,954個のツールが呼び出されている。
論文 参考訳(メタデータ) (2026-04-02T13:26:20Z) - RAPTOR-AI for Disaster OODA Loop: Hierarchical Multimodal RAG with Experience-Driven Agentic Decision-Making [0.0]
本研究は, 災害対応の3段階, 初期救助, 中期復旧, 長期復興を支援するために設計されたエージェント型検索・拡張生成フレームワークを紹介する。
頑健なマルチモーダルグラウンドを実現するために,テキスト災害マニュアル,歴史的教訓,航空・地上レベルの画像を統合した階層的知識基盤を構築した。
提案システムは,BLIPベースの画像キャプション,ColVBERT埋め込み,長文要約を用いて,46の津波関連PDF(2,378ページ)を処理するオープンソースのマルチモーダル実装に基づいている。
論文 参考訳(メタデータ) (2026-01-18T10:58:41Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Multi-class Seismic Building Damage Assessment from InSAR Imagery using Quadratic Variational Causal Bayesian Inference [3.190793775376023]
InSARデータから多層建築物の損傷分類を抽出する新しい手法を提案する。
提案手法は,InSAR観測と地上故障モデルとビルディング関数を統合する。
提案手法は,全ての損傷カテゴリに対して高い精度(AUC > 0.93)を維持しつつ,計算オーバーヘッドを40%以上削減する。
論文 参考訳(メタデータ) (2025-02-25T15:40:16Z) - Deep Self-Supervised Disturbance Mapping with the OPERA Sentinel-1 Radiometric Terrain Corrected SAR Backscatter Product [41.94295877935867]
地表面の乱れのマッピングは、災害対応、資源と生態系の管理、気候適応の取り組みを支援する。
合成開口レーダ(SAR)は、気象や照明条件に関わらず、地上の連続した時系列画像を提供する、外乱マッピングのための貴重なツールである。
NASAのRemote Sensing Analysis (OPERA)プロジェクトは2023年10月にSentinel-1 (RTC-S1)データセットからほぼグローバルな測地線補正SAR後方散乱器をリリースした。
本研究では,地表面の乱れを体系的に解析するために,この新たなデータセットを利用する。
論文 参考訳(メタデータ) (2025-01-15T20:24:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。