論文の概要: BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs
- arxiv url: http://arxiv.org/abs/2505.18229v1
- Date: Fri, 23 May 2025 12:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.236321
- Title: BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs
- Title(参考訳): BEDI:UAV上での身体的エージェント評価のための総合ベンチマーク
- Authors: Mingning Guo, Mengwei Wu, Jiarun He, Shaoxian Li, Haifeng Li, Chao Tao,
- Abstract要約: 無人航空機(UAV)をベースとした身体エージェントは、自律的なタスクにおいて大きな可能性を秘めている。
UAV-EA(UAV-Embodied Agents)の現在の評価手法は、標準化されたベンチマークの欠如によって制限されている。
我々は,UAV-EAを評価するために設計された,体系的で標準化されたベンチマークであるBEDI(Benchmark for Embodied Drone Intelligence)を提案する。
- 参考スコア(独自算出の注目度): 3.239200269731315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of low-altitude remote sensing and Vision-Language Models (VLMs), Embodied Agents based on Unmanned Aerial Vehicles (UAVs) have shown significant potential in autonomous tasks. However, current evaluation methods for UAV-Embodied Agents (UAV-EAs) remain constrained by the lack of standardized benchmarks, diverse testing scenarios and open system interfaces. To address these challenges, we propose BEDI (Benchmark for Embodied Drone Intelligence), a systematic and standardized benchmark designed for evaluating UAV-EAs. Specifically, we introduce a novel Dynamic Chain-of-Embodied-Task paradigm based on the perception-decision-action loop, which decomposes complex UAV tasks into standardized, measurable subtasks. Building on this paradigm, we design a unified evaluation framework encompassing five core sub-skills: semantic perception, spatial perception, motion control, tool utilization, and task planning. Furthermore, we construct a hybrid testing platform that integrates static real-world environments with dynamic virtual scenarios, enabling comprehensive performance assessment of UAV-EAs across varied contexts. The platform also offers open and standardized interfaces, allowing researchers to customize tasks and extend scenarios, thereby enhancing flexibility and scalability in the evaluation process. Finally, through empirical evaluations of several state-of-the-art (SOTA) VLMs, we reveal their limitations in embodied UAV tasks, underscoring the critical role of the BEDI benchmark in advancing embodied intelligence research and model optimization. By filling the gap in systematic and standardized evaluation within this field, BEDI facilitates objective model comparison and lays a robust foundation for future development in this field. Our benchmark will be released at https://github.com/lostwolves/BEDI .
- Abstract(参考訳): 低高度リモートセンシングとビジョン・ランゲージ・モデル(VLM)の急速な進歩により、無人航空機(UAV)に基づく身体的エージェントは自律的なタスクにおいて大きな可能性を示した。
しかしながら、UAV-EA(UAV-Embodied Agents)の現在の評価手法は、標準化されたベンチマークの欠如、多様なテストシナリオ、オープンシステムインターフェースによって制限されている。
これらの課題に対処するために,UAV-EAを評価するために設計された,体系的で標準化されたベンチマークであるBEDI(Benchmark for Embodied Drone Intelligence)を提案する。
具体的には、複雑なUAVタスクを標準化された計測可能なサブタスクに分解する知覚-決定-行動ループに基づく、新しい動的階層型タスクパラダイムを導入する。
このパラダイムに基づいて,意味認識,空間知覚,モーションコントロール,ツール利用,タスク計画という5つのサブスキルを含む統合評価フレームワークを設計する。
さらに,静的な実環境と動的仮想シナリオを統合したハイブリッドテストプラットフォームを構築し,様々な状況におけるUAV-EAの総合的な性能評価を可能にする。
このプラットフォームはまた、オープンで標準化されたインターフェイスを提供しており、研究者はタスクをカスタマイズし、シナリオを拡張し、評価プロセスの柔軟性とスケーラビリティを向上させることができる。
最後に,いくつかのSOTA(State-of-the-art)VLMの実証評価を通じて,UAVタスクの限界を明らかにするとともに,インボディードインテリジェンス研究とモデル最適化の進展において,BEDIベンチマークが重要な役割を担っていることを強調した。
この分野における体系的および標準化された評価のギャップを埋めることにより、BEDIは客観モデルの比較を促進し、この分野における将来の発展のための堅牢な基盤を築き上げている。
私たちのベンチマークはhttps://github.com/lostwolves/BEDIで公開されます。
関連論文リスト
- UAV-ON: A Benchmark for Open-World Object Goal Navigation with Aerial Agents [5.414995940540323]
UAV-ONは、オープンワールド環境における航空エージェントによる大規模目標航法(NavObject)のベンチマークである。
多様な意味領域と複雑な空間レイアウトを備えた14の高忠実なUnreal Engine環境で構成されている。
1270のアノテートされたターゲットオブジェクトを定義し、それぞれがカテゴリ、物理フットプリント、視覚ディスクリプタをエンコードするインスタンスレベルの命令によって特徴付けられる。
論文 参考訳(メタデータ) (2025-08-01T03:23:06Z) - Hierarchical Instruction-aware Embodied Visual Tracking [35.73851196966425]
User-Centric Embodied Visual Tracking (UC-EVT)は、強化学習に基づくモデルにおいて、新しい課題を提示している。
我々は,テキスト空間目標を仲介として利用する命令理解と行動生成を橋渡しする,テキストbfインストラクションを意識した身体的視覚追跡(HIEVT)エージェントを提案する。
論文 参考訳(メタデータ) (2025-05-27T04:36:26Z) - More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection benchmark for UAV [58.89234732689013]
CODroneは、現実の状況を正確に反映した、UAVのための包括的なオブジェクト指向オブジェクト検出データセットである。
また、下流のタスク要求に合わせて設計された新しいベンチマークとしても機能する。
我々は、CODroneを厳格に評価するために、22の古典的またはSOTA法に基づく一連の実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:56:02Z) - Securing the Skies: A Comprehensive Survey on Anti-UAV Methods, Benchmarking, and Future Directions [22.160090947392344]
無人航空機(UAV)は、インフラ検査、監視および関連するタスクには不可欠であるが、重要なセキュリティ課題も導入している。
本調査は,3つの目的(分類,検出,追跡)を中心に,抗UAVドメインを広範囲に調査する。
単一モダリティとマルチセンサパイプラインをまたいだ最先端のソリューションを体系的に評価する。
論文 参考訳(メタデータ) (2025-04-16T10:58:33Z) - AIGVE-Tool: AI-Generated Video Evaluation Toolkit with Multifaceted Benchmark [8.827755848017578]
既存のメトリクスには、方法論を体系的に分類するための統一されたフレームワークがない。
AI生成ビデオ評価のための構造化分類と評価パイプラインを提供する統合フレームワークであるAIGVE-Toolを紹介する。
大規模なベンチマークデータセットは、手作りの指示とプロンプトに基づいて、5つのSOTAビデオ生成モデルで作成される。
論文 参考訳(メタデータ) (2025-03-18T09:36:33Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - TestAgent: A Framework for Domain-Adaptive Evaluation of LLMs via Dynamic Benchmark Construction and Exploratory Interaction [29.72874725703848]
大規模言語モデル(LLM)は、様々な垂直領域に徐々に展開されている。
現在の評価方法は、実世界の要求に合致しない静的でリソース集約的なデータセットに依存している。
textbfBenchmark+は従来の質問応答ベンチマークを、より柔軟な戦略基準のフォーマットに拡張します。
我々は,これらの概念を実装したエージェントベースの評価フレームワークであるtextbftextscTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - A Requirements-Driven Platform for Validating Field Operations of Small
Uncrewed Aerial Vehicles [48.67061953896227]
DroneReqValidator (DRV)は、sUAS開発者が運用コンテキストを定義し、複数のsUASミッション要件を設定し、安全性特性を指定し、独自のsUASアプリケーションを高忠実な3D環境にデプロイすることを可能にする。
DRVモニタリングシステムは、sUASと環境からランタイムデータを収集し、安全特性のコンプライアンスを分析し、違反をキャプチャする。
論文 参考訳(メタデータ) (2023-07-01T02:03:49Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z) - Integrated Benchmarking and Design for Reproducible and Accessible
Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。
このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。
本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文 参考訳(メタデータ) (2020-09-09T15:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。