論文の概要: Is your VLM Sky-Ready? A Comprehensive Spatial Intelligence Benchmark for UAV Navigation
- arxiv url: http://arxiv.org/abs/2511.13269v1
- Date: Mon, 17 Nov 2025 11:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.164386
- Title: Is your VLM Sky-Ready? A Comprehensive Spatial Intelligence Benchmark for UAV Navigation
- Title(参考訳): VLMはスカイレディか?UAVナビゲーションのための総合的空間知能ベンチマーク
- Authors: Lingfeng Zhang, Yuchen Zhang, Hongsheng Li, Haoxiang Fu, Yingbo Tang, Hangjun Ye, Long Chen, Xiaojun Liang, Xiaoshuai Hao, Wenbo Ding,
- Abstract要約: VLM(Vision-Language Models)はその強力な視覚認識と推論能力を活用し、無人航空機(UAV)のタスクに広く応用されている。
しかし、UAVシナリオにおける既存のVLMの空間的知能能力は、まだほとんど解明されていない。
本稿では,UAVナビゲーションにおけるVLMの空間的インテリジェンス能力を評価するためのベンチマークであるSpatialSky-Benchを紹介する。
- 参考スコア(独自算出の注目度): 38.19842131198389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs), leveraging their powerful visual perception and reasoning capabilities, have been widely applied in Unmanned Aerial Vehicle (UAV) tasks. However, the spatial intelligence capabilities of existing VLMs in UAV scenarios remain largely unexplored, raising concerns about their effectiveness in navigating and interpreting dynamic environments. To bridge this gap, we introduce SpatialSky-Bench, a comprehensive benchmark specifically designed to evaluate the spatial intelligence capabilities of VLMs in UAV navigation. Our benchmark comprises two categories-Environmental Perception and Scene Understanding-divided into 13 subcategories, including bounding boxes, color, distance, height, and landing safety analysis, among others. Extensive evaluations of various mainstream open-source and closed-source VLMs reveal unsatisfactory performance in complex UAV navigation scenarios, highlighting significant gaps in their spatial capabilities. To address this challenge, we developed the SpatialSky-Dataset, a comprehensive dataset containing 1M samples with diverse annotations across various scenarios. Leveraging this dataset, we introduce Sky-VLM, a specialized VLM designed for UAV spatial reasoning across multiple granularities and contexts. Extensive experimental results demonstrate that Sky-VLM achieves state-of-the-art performance across all benchmark tasks, paving the way for the development of VLMs suitable for UAV scenarios. The source code is available at https://github.com/linglingxiansen/SpatialSKy.
- Abstract(参考訳): VLM(Vision-Language Models)は、その強力な視覚認識と推論能力を活用し、無人航空機(UAV)タスクに広く応用されている。
しかし、UAVシナリオにおける既存のVLMの空間的インテリジェンス能力はほとんど探索されていないままであり、動的環境のナビゲートと解釈におけるその有効性への懸念が高まっている。
このギャップを埋めるために、UAVナビゲーションにおけるVLMの空間知能を評価するための総合的なベンチマークであるSpatialSky-Benchを紹介する。
本ベンチマークでは, 環境認識とシーン理解を, 境界ボックス, 色, 距離, 高さ, 着陸安全解析など13のサブカテゴリに分けた。
様々な主要なオープンソースおよびクローズドソースVLMの広範囲な評価は、複雑なUAVナビゲーションシナリオにおける不満足なパフォーマンスを示し、空間的能力の重大なギャップを浮き彫りにした。
この課題に対処するために,さまざまなシナリオにまたがる多彩なアノテーションを持つ100万のサンプルを含む包括的データセットであるSpatialSky-Datasetを開発した。
このデータセットを活用することで、複数の粒度やコンテキストにまたがるUAV空間推論用に設計された特殊VLMであるSky-VLMを導入する。
広範にわたる実験結果から,Sky-VLMは,UAVシナリオに適したVLMの開発方法として,すべてのベンチマークタスクにおける最先端性能を実現していることが示された。
ソースコードはhttps://github.com/linglingxiansen/SpatialSKyで入手できる。
関連論文リスト
- SD-VLM: Spatial Measuring and Understanding with Depth-Encoded Vision-Language Models [75.64836077468722]
視覚言語モデル(VLM)は2次元意味的視覚的理解において優れているが、3次元空間的関係について定量的に推論する能力はいまだ未解明のままである。
VLMの基本空間知覚能力を大幅に向上させる新しいフレームワークであるSD-VLMを提案する。
我々はSD-VLMを訓練した。これは強力な一般化VLMであり、より優れた空間的測定と理解能力を示す。
論文 参考訳(メタデータ) (2025-09-22T12:08:12Z) - Multimodal Mathematical Reasoning Embedded in Aerial Vehicle Imagery: Benchmarking, Analysis, and Exploration [39.84712917520324]
航空機画像におけるマルチモーダルな数学的推論を厳格に評価する最初のベンチマークであるAVI-Mathを紹介する。
データセットは、UAVビューから取得した高品質な車両関連質問3,773件からなり、6つの数学科目と20のトピックをカバーしている。
我々の分析は、現在の視覚言語モデルにおける数学的推論能力の重大な制限を強調している。
論文 参考訳(メタデータ) (2025-09-12T08:46:49Z) - UAVScenes: A Multi-Modal Dataset for UAVs [45.752766099526525]
UAVScenesは2Dと3Dの両方のモードでさまざまなタスクをベンチマークするために設計された大規模なデータセットである。
我々は、フレームワイド画像とLiDARポイントクラウドの両方に対して、手動でラベル付けされたセマンティックアノテーションを提供することにより、このデータセットを強化する。
これらの追加により、セグメンテーション、深さ推定、6-DoFローカライゼーション、位置認識、新しいビュー合成など、幅広いUAV認識タスクが可能になる。
論文 参考訳(メタデータ) (2025-07-30T06:29:52Z) - LLM Meets the Sky: Heuristic Multi-Agent Reinforcement Learning for Secure Heterogeneous UAV Networks [57.27815890269697]
この研究は、エネルギー制約下での不均一なUAVネットワーク(HetUAVN)における機密率の最大化に焦点を当てている。
本稿では,Large Language Model (LLM) を用いたマルチエージェント学習手法を提案する。
その結果,本手法は機密性やエネルギー効率において,既存のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-07-23T04:22:57Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection benchmark for UAV [58.89234732689013]
CODroneは、現実の状況を正確に反映した、UAVのための包括的なオブジェクト指向オブジェクト検出データセットである。
また、下流のタスク要求に合わせて設計された新しいベンチマークとしても機能する。
我々は、CODroneを厳格に評価するために、22の古典的またはSOTA法に基づく一連の実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:56:02Z) - Exploring the best way for UAV visual localization under Low-altitude Multi-view Observation Condition: a Benchmark [6.693781685584959]
高度の低い多視点UAV AVLは、極端な視点の変化による大きな課題を提示する。
このベンチマークでは、低高度多視点UAV AVLの課題を明らかにし、将来の研究に貴重なガイダンスを提供した。
論文 参考訳(メタデータ) (2025-03-12T03:29:27Z) - Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [126.02606196101259]
Sa2VAは、画像とビデオの両方の密集した理解のための、包括的で統一されたモデルである。
セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。
Sa2VAはQwen-VLやIntern-VLなど、様々なVLMに容易に拡張できる。
論文 参考訳(メタデータ) (2025-01-07T18:58:54Z) - Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology [38.2096731046639]
UAV視覚言語ナビゲーションにおける最近の取り組みは、主に地上ベースのVLN設定を採用する。
プラットフォーム,ベンチマーク,方法論という3つの観点からのソリューションを提案する。
論文 参考訳(メタデータ) (2024-10-09T17:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。