論文の概要: ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue
- arxiv url: http://arxiv.org/abs/2605.01371v1
- Date: Sat, 02 May 2026 10:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.735243
- Title: ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue
- Title(参考訳): ESARBench: エージェントUAVの身体検索と救助のためのベンチマーク
- Authors: Daoxuan Zhang, Ping Chen, Jianyi Zhou, Shuo Yang,
- Abstract要約: 無人航空機(UAV)は、空間推論、意味理解、複雑な意思決定において例外的な能力を持つ。
既存のUAV検索・救助研究は、従来のビジョンと経路計画手法が支配している。
本研究では,航空エージェントが複雑な環境を自律的に探索するために必要な新しいタスクである textbfEmbodied Search and Rescue (ESAR) を提案する。
MLLM駆動型UAVエージェントを高現実的なSARシナリオで評価するために設計された,最初の総合ベンチマークである textbfESARBench を提示する。
- 参考スコア(独自算出の注目度): 7.02322027654542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Multimodal Large Language Models (MLLMs) has empowered Unmanned Aerial Vehicle (UAV) with exceptional capabilities in spatial reasoning, semantic understanding, and complex decision-making, making them inherently suited for UAV Search and Rescue (SAR). However, existing UAV SAR research is dominated by traditional vision and path-planning methods and lacks a comprehensive and unified benchmark for embodied agents. To bridge this gap, we first propose the novel task of \textbf{Embodied Search and Rescue (ESAR)}, which requires aerial agents to autonomously explore complex environments, identify rescue clues, and reason about victim locations to execute informed decision-making. Additionally, we present \textbf{ESARBench}, the first comprehensive benchmark designed to evaluate MLLM-driven UAV agents in highly realistic SAR scenarios. Leveraging Unreal Engine 5 and AirSim, we construct four high-fidelity, large-scale open environments mapped directly from real-world Geographic Information System (GIS) data to ensure photorealistic landscapes. To rigorously simulate actual rescue operations, our benchmark incorporates dynamic variables including weather conditions, time of day, and stochastic clue placement. Furthermore, we create a dataset of 600 tasks modeled after real-world rescue cases and propose a robust set of evaluation metrics. We evaluate diverse baselines, ranging from traditional heuristics to advanced ground and aerial MLLM-based ObjectNav agents. Experimental results highlight the challenges in ESAR, revealing critical bottlenecks in spatial memory, aerial adaptation, and the trade-off between search efficiency and flight safety. We hope ESARBench serves as a valuable resource to advance research on Embodied Search and Rescue domain. Source code and project page: https://4amgodvzx.github.io/ESAR.github.io.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩により、無人航空機(UAV)は空間的推論、意味的理解、複雑な意思決定に優れた能力を有し、UAV検索と救助(SAR)に本質的に適している。
しかし、既存のUAV SAR研究は従来のビジョンとパスプランニング手法に支配されており、エンボディエージェントの総合的かつ統一的なベンチマークが欠如している。
このギャップを埋めるために、我々はまず、航空エージェントが複雑な環境を自律的に探索し、救助の手がかりを特定し、被害者の位置を判断し、情報的意思決定を行うための新しいタスクである「textbf{Embodied Search and Rescue (ESAR)」を提案する。
さらに,MLLM駆動型UAVエージェントを高現実的なSARシナリオで評価するために設計された,最初の総合ベンチマークである‘textbf{ESARBench} を提示する。
本研究では,Unreal Engine 5 と AirSim を利用して,現実の地理情報システム(GIS)データから直接マップした4つの高忠実で大規模オープンな環境を構築し,フォトリアリスティックな景観を確実にする。
本ベンチマークでは,実際の救助活動のシミュレーションを行うため,気象条件,日時,確率的手がかり配置などの動的変数を取り入れた。
さらに,現実の救助事件をモデルとした600のタスクのデータセットを作成し,ロバストな評価指標を提案する。
我々は,従来のヒューリスティックから高度地上および航空機MLLMベースのObjectNavエージェントまで,多様なベースラインを評価した。
実験結果はESARの課題を浮き彫りにして,空間記憶の重大なボトルネック,空中適応,探索効率と飛行安全性のトレードオフを明らかにした。
ESARBenchがEmbodied Search and Rescueドメインの研究を進めるための貴重なリソースになることを願っています。
ソースコードとプロジェクトページ:https://4amgodvzx.github.io/ESAR.github.io
関連論文リスト
- APEX: A Decoupled Memory-based Explorer for Asynchronous Aerial Object Goal Navigation [26.546610806602803]
Embodied AIの挑戦的なフロンティアであるAerial Object Goal Navigationでは、無人航空機(UAV)エージェントが視覚的知覚と言語記述のみを使用して、特定のターゲットを自律的に探索、推論、識別する必要がある。
既存の手法は、大気環境における複雑な空間表現の記憶、信頼性と解釈可能な行動決定、非効率な探索と情報収集に苦慮している。
我々は,複雑な空中環境下での効率的な探索と目標獲得を目的とした,新しい階層型エージェントであるtextAPEXを紹介した。
論文 参考訳(メタデータ) (2026-01-31T06:27:57Z) - AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Towards Autonomous UAV Visual Object Search in City Space: Benchmark and Agentic Methodology [26.90429412601702]
都市オブジェクトの自律検索のための最初のベンチマークデータセットであるCityAVOSを紹介する。
このデータセットは、6つのオブジェクトカテゴリにまたがる2,420のタスクで構成され、難易度は様々である。
また,人間の3層認知を模倣したマルチモーダルな大規模言語モデル(MLLM)を用いたエージェント手法であるRPPSearcherを提案する。
論文 参考訳(メタデータ) (2025-05-13T17:34:54Z) - More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection benchmark for UAV [58.89234732689013]
CODroneは、現実の状況を正確に反映した、UAVのための包括的なオブジェクト指向オブジェクト検出データセットである。
また、下流のタスク要求に合わせて設計された新しいベンチマークとしても機能する。
我々は、CODroneを厳格に評価するために、22の古典的またはSOTA法に基づく一連の実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:56:02Z) - Exploring Spatial Representation to Enhance LLM Reasoning in Aerial Vision-Language Navigation [11.267956604072845]
ALN(Aerial Vision-and-Language Navigation)は、無人航空機(Unmanned Aerial Vehicles、UAV)が自然言語の指示や視覚的手がかりを通じて屋外の環境を航行できるようにする新しいタスクである。
本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして活用する,空飛ぶVLNタスクのためのトレーニングフリーゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-11T03:54:48Z) - Aerial View Goal Localization with Reinforcement Learning [6.165163123577484]
本稿では,実際のUAVへのアクセスを必要とせずに,SAR(Search-and-Rescue)のようなセットアップをエミュレートするフレームワークを提案する。
この枠組みでは、エージェントが空中画像(探索領域のプロキシ)上で動作し、視覚的手がかりとして記述されたゴールのローカライズを行う。
AiRLocは、探索(遠方目標探索)と搾取(近方目標の局所化)を分離する強化学習(RL)に基づくモデルである。
論文 参考訳(メタデータ) (2022-09-08T10:27:53Z) - Rethinking Drone-Based Search and Rescue with Aerial Person Detection [79.76669658740902]
航空ドローンの映像の視覚検査は、現在土地捜索救助(SAR)活動に不可欠な部分である。
本稿では,この空中人物検出(APD)タスクを自動化するための新しいディープラーニングアルゴリズムを提案する。
本稿では,Aerial Inspection RetinaNet (AIR) アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-11-17T21:48:31Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。