論文の概要: UAVBench: An Open Benchmark Dataset for Autonomous and Agentic AI UAV Systems via LLM-Generated Flight Scenarios
- arxiv url: http://arxiv.org/abs/2511.11252v1
- Date: Fri, 14 Nov 2025 12:51:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.603841
- Title: UAVBench: An Open Benchmark Dataset for Autonomous and Agentic AI UAV Systems via LLM-Generated Flight Scenarios
- Title(参考訳): UAVBench: LLM生成フライトシナリオによる自律型およびエージェント型AI UAVシステムのためのオープンベンチマークデータセット
- Authors: Mohamed Amine Ferrag, Abderrahmane Lakas, Merouane Debbah,
- Abstract要約: UAVBenchは、大規模言語モデル(LLM)によって生成されたUAV飛行シナリオのオープンベンチマークベンチマークである。
UAVBench_MCQは,10の認知的・倫理的推論スタイルにまたがる5万の多重選択質問を含む推論指向の拡張である。
GPT-5, ChatGPT-4o, Gemini 2.5 Flash, DeepSeek V3, Q3wenwenB, ERNIE 4.5 300B を含む32 の最先端 LLM を評価し, 認識・政策推論において高い性能を示した。
- 参考スコア(独自算出の注目度): 3.099103925863002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous aerial systems increasingly rely on large language models (LLMs) for mission planning, perception, and decision-making, yet the lack of standardized and physically grounded benchmarks limits systematic evaluation of their reasoning capabilities. To address this gap, we introduce UAVBench, an open benchmark dataset comprising 50,000 validated UAV flight scenarios generated through taxonomy-guided LLM prompting and multi-stage safety validation. Each scenario is encoded in a structured JSON schema that includes mission objectives, vehicle configuration, environmental conditions, and quantitative risk labels, providing a unified representation of UAV operations across diverse domains. Building on this foundation, we present UAVBench_MCQ, a reasoning-oriented extension containing 50,000 multiple-choice questions spanning ten cognitive and ethical reasoning styles, ranging from aerodynamics and navigation to multi-agent coordination and integrated reasoning. This framework enables interpretable and machine-checkable assessment of UAV-specific cognition under realistic operational contexts. We evaluate 32 state-of-the-art LLMs, including GPT-5, ChatGPT-4o, Gemini 2.5 Flash, DeepSeek V3, Qwen3 235B, and ERNIE 4.5 300B, and find strong performance in perception and policy reasoning but persistent challenges in ethics-aware and resource-constrained decision-making. UAVBench establishes a reproducible and physically grounded foundation for benchmarking agentic AI in autonomous aerial systems and advancing next-generation UAV reasoning intelligence. To support open science and reproducibility, we release the UAVBench dataset, the UAVBench_MCQ benchmark, evaluation scripts, and all related materials on GitHub at https://github.com/maferrag/UAVBench
- Abstract(参考訳): 自律型航空システムは、ミッション計画、認識、意思決定のための大きな言語モデル (LLM) にますます依存しているが、標準化された物理的根拠を持つベンチマークの欠如は、彼らの推論能力の体系的な評価を制限している。
このギャップに対処するために,分類誘導LDMプロンプトと多段階安全検証によって生成される5万件のUAV飛行シナリオからなるオープンベンチマークデータセットであるUAVBenchを紹介した。
各シナリオは、ミッション目標、車両構成、環境条件、量的リスクラベルを含む構造化されたJSONスキーマにエンコードされ、さまざまなドメインにわたるUAV操作の統一表現を提供する。
この基礎の上に構築されたUAVBench_MCQは,空気力学やナビゲーション,マルチエージェント調整,統合推論など,10の認知的・倫理的推論スタイルにまたがる5万の質問を含む推論指向の拡張である。
このフレームワークは、現実的な運用状況下でのUAV固有の認識の解釈可能かつマシンチェック可能な評価を可能にする。
GPT-5, ChatGPT-4o, Gemini 2.5 Flash, DeepSeek V3, Qwen3 235B, ERNIE 4.5 300B を含む32 の最先端 LLM を評価し, 認識・政策推論において高い性能を示した。
UAVBenchは、自律飛行システムにおいてエージェントAIをベンチマークし、次世代のUAV推論インテリジェンスを前進させる再現可能で物理的に基礎を定めている。
オープンサイエンスと再現性をサポートするため、UAVBenchデータセット、UAVBench_MCQベンチマーク、評価スクリプト、および関連するすべての資料をGitHubでhttps://github.com/maferrag/UAVBenchでリリースしています。
関連論文リスト
- Agentic UAVs: LLM-Driven Autonomy with Integrated Tool-Calling and Cognitive Reasoning [3.4643961367503575]
既存のUAVフレームワークには、コンテキスト対応の推論、自律的な意思決定、エコシステムレベルの統合が欠けている。
本稿では,5層アーキテクチャであるエージェントUAVフレームワークを紹介する(知覚,推論,アクション,統合,学習)。
ROS2 と Gazebo ベースのプロトタイプは YOLOv11 オブジェクト検出と GPT-4 推論とローカル Gemma-3 デプロイメントを統合している。
論文 参考訳(メタデータ) (2025-09-14T08:46:40Z) - STRIDE-QA: Visual Question Answering Dataset for Spatiotemporal Reasoning in Urban Driving Scenes [5.685235562999083]
STRIDE-QAは、都市運転における時間的推論のための視覚的質問応答データセットとして最大である。
空間的局所化と時間的予測を通じて、オブジェクト中心とエゴ中心の推論の両方をサポートする。
我々のベンチマークでは、既存のVLM(Vision-Language Models)が予測一貫性のほぼゼロのスコアを得るのに苦労していることが示されている。
論文 参考訳(メタデータ) (2025-08-14T07:57:06Z) - STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving [16.602141801221364]
STSBenchは、自律運転のための視覚言語モデル(VLM)の総合的な理解をベンチマークするためのフレームワークである。
このベンチマークでは、複数のビューにまたがる43の多様なシナリオが特徴で、その結果、971人の人間による検証された複数選択の質問が生まれている。
徹底的な評価により、複雑な環境における基本的なトラフィックダイナミクスを推論する既存のモデルの能力の欠点が明らかになる。
論文 参考訳(メタデータ) (2025-06-06T16:25:22Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs [3.239200269731315]
無人航空機(UAV)をベースとした身体エージェントは、自律的なタスクにおいて大きな可能性を秘めている。
UAV-EA(UAV-Embodied Agents)の現在の評価手法は、標準化されたベンチマークの欠如によって制限されている。
我々は,UAV-EAを評価するために設計された,体系的で標準化されたベンチマークであるBEDI(Benchmark for Embodied Drone Intelligence)を提案する。
論文 参考訳(メタデータ) (2025-05-23T12:14:00Z) - Are Vision LLMs Road-Ready? A Comprehensive Benchmark for Safety-Critical Driving Video Understanding [10.242043337117005]
視覚大言語モデル(VLLM)は、画像キャプションや視覚的質問応答といった一般的な視覚的タスクにおいて、印象的な機能を示している。
しかし、自律運転のような専門的で安全に重要な分野におけるその効果は、まだ明らかにされていない。
DVBenchは、安全クリティカルな運転映像の理解において、VLLMの性能を評価するために設計された先駆的なベンチマークである。
論文 参考訳(メタデータ) (2025-04-20T07:50:44Z) - EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。