論文の概要: BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs
- arxiv url: http://arxiv.org/abs/2505.18229v1
- Date: Fri, 23 May 2025 12:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.236321
- Title: BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs
- Title(参考訳): BEDI:UAV上での身体的エージェント評価のための総合ベンチマーク
- Authors: Mingning Guo, Mengwei Wu, Jiarun He, Shaoxian Li, Haifeng Li, Chao Tao,
- Abstract要約: 無人航空機(UAV)をベースとした身体エージェントは、自律的なタスクにおいて大きな可能性を秘めている。
UAV-EA(UAV-Embodied Agents)の現在の評価手法は、標準化されたベンチマークの欠如によって制限されている。
我々は,UAV-EAを評価するために設計された,体系的で標準化されたベンチマークであるBEDI(Benchmark for Embodied Drone Intelligence)を提案する。
- 参考スコア(独自算出の注目度): 3.239200269731315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of low-altitude remote sensing and Vision-Language Models (VLMs), Embodied Agents based on Unmanned Aerial Vehicles (UAVs) have shown significant potential in autonomous tasks. However, current evaluation methods for UAV-Embodied Agents (UAV-EAs) remain constrained by the lack of standardized benchmarks, diverse testing scenarios and open system interfaces. To address these challenges, we propose BEDI (Benchmark for Embodied Drone Intelligence), a systematic and standardized benchmark designed for evaluating UAV-EAs. Specifically, we introduce a novel Dynamic Chain-of-Embodied-Task paradigm based on the perception-decision-action loop, which decomposes complex UAV tasks into standardized, measurable subtasks. Building on this paradigm, we design a unified evaluation framework encompassing five core sub-skills: semantic perception, spatial perception, motion control, tool utilization, and task planning. Furthermore, we construct a hybrid testing platform that integrates static real-world environments with dynamic virtual scenarios, enabling comprehensive performance assessment of UAV-EAs across varied contexts. The platform also offers open and standardized interfaces, allowing researchers to customize tasks and extend scenarios, thereby enhancing flexibility and scalability in the evaluation process. Finally, through empirical evaluations of several state-of-the-art (SOTA) VLMs, we reveal their limitations in embodied UAV tasks, underscoring the critical role of the BEDI benchmark in advancing embodied intelligence research and model optimization. By filling the gap in systematic and standardized evaluation within this field, BEDI facilitates objective model comparison and lays a robust foundation for future development in this field. Our benchmark will be released at https://github.com/lostwolves/BEDI .
- Abstract(参考訳): 低高度リモートセンシングとビジョン・ランゲージ・モデル(VLM)の急速な進歩により、無人航空機(UAV)に基づく身体的エージェントは自律的なタスクにおいて大きな可能性を示した。
しかしながら、UAV-EA(UAV-Embodied Agents)の現在の評価手法は、標準化されたベンチマークの欠如、多様なテストシナリオ、オープンシステムインターフェースによって制限されている。
これらの課題に対処するために,UAV-EAを評価するために設計された,体系的で標準化されたベンチマークであるBEDI(Benchmark for Embodied Drone Intelligence)を提案する。
具体的には、複雑なUAVタスクを標準化された計測可能なサブタスクに分解する知覚-決定-行動ループに基づく、新しい動的階層型タスクパラダイムを導入する。
このパラダイムに基づいて,意味認識,空間知覚,モーションコントロール,ツール利用,タスク計画という5つのサブスキルを含む統合評価フレームワークを設計する。
さらに,静的な実環境と動的仮想シナリオを統合したハイブリッドテストプラットフォームを構築し,様々な状況におけるUAV-EAの総合的な性能評価を可能にする。
このプラットフォームはまた、オープンで標準化されたインターフェイスを提供しており、研究者はタスクをカスタマイズし、シナリオを拡張し、評価プロセスの柔軟性とスケーラビリティを向上させることができる。
最後に,いくつかのSOTA(State-of-the-art)VLMの実証評価を通じて,UAVタスクの限界を明らかにするとともに,インボディードインテリジェンス研究とモデル最適化の進展において,BEDIベンチマークが重要な役割を担っていることを強調した。
この分野における体系的および標準化された評価のギャップを埋めることにより、BEDIは客観モデルの比較を促進し、この分野における将来の発展のための堅牢な基盤を築き上げている。
私たちのベンチマークはhttps://github.com/lostwolves/BEDIで公開されます。
関連論文リスト
- More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection benchmark for UAV [58.89234732689013]
CODroneは、現実の状況を正確に反映した、UAVのための包括的なオブジェクト指向オブジェクト検出データセットである。
また、下流のタスク要求に合わせて設計された新しいベンチマークとしても機能する。
我々は、CODroneを厳格に評価するために、22の古典的またはSOTA法に基づく一連の実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:56:02Z) - AIGVE-Tool: AI-Generated Video Evaluation Toolkit with Multifaceted Benchmark [8.827755848017578]
既存のメトリクスには、方法論を体系的に分類するための統一されたフレームワークがない。
AI生成ビデオ評価のための構造化分類と評価パイプラインを提供する統合フレームワークであるAIGVE-Toolを紹介する。
大規模なベンチマークデータセットは、手作りの指示とプロンプトに基づいて、5つのSOTAビデオ生成モデルで作成される。
論文 参考訳(メタデータ) (2025-03-18T09:36:33Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - TestAgent: A Framework for Domain-Adaptive Evaluation of LLMs via Dynamic Benchmark Construction and Exploratory Interaction [29.72874725703848]
大規模言語モデル(LLM)は、様々な垂直領域に徐々に展開されている。
現在の評価方法は、実世界の要求に合致しない静的でリソース集約的なデータセットに依存している。
textbfBenchmark+は従来の質問応答ベンチマークを、より柔軟な戦略基準のフォーマットに拡張します。
我々は,これらの概念を実装したエージェントベースの評価フレームワークであるtextbftextscTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。