論文の概要: HUGE-Bench: A Benchmark for High-Level UAV Vision-Language-Action Tasks
- arxiv url: http://arxiv.org/abs/2603.19822v1
- Date: Fri, 20 Mar 2026 10:08:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.099347
- Title: HUGE-Bench: A Benchmark for High-Level UAV Vision-Language-Action Tasks
- Title(参考訳): HUGE-Bench:高レベルUAVビジョンランゲージ対応タスクのベンチマーク
- Authors: Jingyu Guo, Ziye Chen, Ziwen Li, Zhengqing Gao, Jiaxin Huang, Hanlue Zhang, Fengming Huang, Yu Yao, Tongliang Liu, Mingming Gong,
- Abstract要約: Huge-Benchは高レベルUAVビジョンランゲージ・アクションのベンチマークである。
4つの現実世界のデジタルツインシーン、8つのハイレベルタスク、2.56mの軌跡からなる。
プロセスの忠実度、終端精度、安全性を評価するために、プロセス指向および衝突認識メトリクスを導入する。
- 参考スコア(独自算出の注目度): 73.62053624331227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing UAV vision-language navigation (VLN) benchmarks have enabled language-guided flight, but they largely focus on long, step-wise route descriptions with goal-centric evaluation, making them less diagnostic for real operations where brief, high-level commands must be grounded into safe multi-stage behaviors. We present HUGE-Bench, a benchmark for High-Level UAV Vision-Language-Action (HL-VLA) tasks that tests whether an agent can interpret concise language and execute complex, process-oriented trajectories with safety awareness. HUGE-Bench comprises 4 real-world digital twin scenes, 8 high-level tasks, and 2.56M meters of trajectories, and is built on an aligned 3D Gaussian Splatting (3DGS)-Mesh representation that combines photorealistic rendering with collision-capable geometry for scalable generation and collision-aware evaluation. We introduce process-oriented and collision-aware metrics to assess process fidelity, terminal accuracy, and safety. Experiments on representative state-of-the-art VLA models reveal significant gaps in high-level semantic completion and safe execution, highlighting HUGE-Bench as a diagnostic testbed for high-level UAV autonomy.
- Abstract(参考訳): 既存のUAVビジョン言語ナビゲーション(VLN)ベンチマークでは、言語誘導飛行が可能になっているが、それらは主にゴール中心の評価を伴う、長いステップワイドなルート記述に焦点を当てており、簡潔で高レベルなコマンドを安全なマルチステージの動作に根ざさなければならない実際の操作の診断を少なくしている。
HUGE-Benchは,高レベルUAVビジョン・ランゲージ・アクション(HL-VLA)タスクのベンチマークで,エージェントが言語を簡潔に解釈し,プロセス指向の複雑な軌道を安全意識で実行できるかを検証する。
HUGE-Benchは4つの現実世界のデジタル双対シーン、8つのハイレベルタスク、2.56万メートルの軌跡で構成されており、3Dガウススプラッティング(3DGS)-メシュ表現上に構築されている。
プロセスの忠実度、終端精度、安全性を評価するために、プロセス指向および衝突認識メトリクスを導入する。
最先端VLAモデルの代表的な実験では、高レベルのセマンティックコンプリートと安全な実行において大きなギャップが示され、HUGE-Benchは高レベルのUAV自律性のための診断テストベッドである。
関連論文リスト
- AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。
本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文 参考訳(メタデータ) (2026-03-18T12:43:47Z) - 3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting [12.057873540714098]
3DGSNavは、3D Gaussian Splatting (3DGS)を視覚言語モデル(VLM)の永続メモリとして組み込んで空間推論を強化する新しいフレームワークである。
3DGSNavは環境の3DGS表現を段階的に構築し、フロンティア対応のファーストパーソンビューの軌跡誘導自由視点レンダリングを可能にする。
ナビゲーション中、リアルタイムオブジェクト検出器が潜在的なターゲットをフィルタリングし、VLM駆動のアクティブな視点スイッチングがターゲットを再検証する。
論文 参考訳(メタデータ) (2026-02-12T16:41:26Z) - AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild [62.47761809929869]
視覚言語ナビゲーション(VLN)は、視覚的観察とともに言語指示を解釈することで、知的エージェントが環境をナビゲートする必要がある。
無人航空機(UAV)の現在のVLN研究は、所定のルートに沿ってUAVを誘導するための詳細な指示に依存している。
本稿では,自律型UAVナビゲーションのためのエンド・ツー・エンドのビジョン・ランゲージ・アクションモデルであるAutoFlyを提案する。
論文 参考訳(メタデータ) (2026-02-10T11:08:07Z) - APEX: A Decoupled Memory-based Explorer for Asynchronous Aerial Object Goal Navigation [26.546610806602803]
Embodied AIの挑戦的なフロンティアであるAerial Object Goal Navigationでは、無人航空機(UAV)エージェントが視覚的知覚と言語記述のみを使用して、特定のターゲットを自律的に探索、推論、識別する必要がある。
既存の手法は、大気環境における複雑な空間表現の記憶、信頼性と解釈可能な行動決定、非効率な探索と情報収集に苦慮している。
我々は,複雑な空中環境下での効率的な探索と目標獲得を目的とした,新しい階層型エージェントであるtextAPEXを紹介した。
論文 参考訳(メタデータ) (2026-01-31T06:27:57Z) - VLA-Arena: An Open-Source Framework for Benchmarking Vision-Language-Action Models [33.143187576673775]
本稿では,3つの軸にまたがる難易度を定量化するための新しい構造化タスク設計フレームワークを提案する。
タスク構造では、VLA-Arenaの170のタスクは、安全性、ディトラクタ、外挿、ロングホライゾンの4つの次元に分けられる。
タスク定義から自動評価までのエンドツーエンドツールチェーンと、微調整のためのVLA-Arena-S/M/Lデータセットを提供する。
論文 参考訳(メタデータ) (2025-12-27T09:40:54Z) - AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - Semantic-Aware Ship Detection with Vision-Language Integration [9.49989812166076]
リモートセンシング画像における船舶検出は、海洋活動監視、船舶のロジスティクス、環境研究など幅広い用途において重要な課題である。
本稿では,視覚言語モデル(VLM)とマルチスケール適応型スライディングウィンドウ戦略を組み合わせた新しい検出フレームワークを提案する。
我々は3つの明確に定義されたタスクを通じてフレームワークを評価し、その性能を包括的に分析し、複数の視点からSASDを前進させる効果を実証する。
論文 参考訳(メタデータ) (2025-08-21T19:24:52Z) - IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering [7.247417417159471]
視覚言語モデル(VLM)は記述的タスクに優れるが、視覚的な観察からシーンを真に理解しているかどうかは不明だ。
IR3D-Benchは、受動的認識よりも能動的生成による理解を実証するために、VLMに挑戦するベンチマークである。
論文 参考訳(メタデータ) (2025-06-29T17:02:57Z) - Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis [65.42684641776931]
3Dビジョン言語(3D-VL)ベンチマークは、3D-VLモデルの評価に不足している。
我々は3D-VLグラウンドとQAタスクのベンチマークであるBeacon3Dを提案する。
論文 参考訳(メタデータ) (2025-03-28T13:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。