論文の概要: Are VLMs Lost Between Sky and Space? LinkS$^2$Bench for UAV-Satellite Dynamic Cross-View Spatial Intelligence
- arxiv url: http://arxiv.org/abs/2604.02020v1
- Date: Thu, 02 Apr 2026 13:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.809766
- Title: Are VLMs Lost Between Sky and Space? LinkS$^2$Bench for UAV-Satellite Dynamic Cross-View Spatial Intelligence
- Title(参考訳): VLMは空と宇宙の間に失われたか?LinkS$2$Bench for UAV-Satellite Dynamic Cross-View Space Intelligence
- Authors: Dian Liu, Jie Feng, Di Li, Yuhui Zheng, Guanbin Li, Weisheng Dong, Guangming Shi,
- Abstract要約: LinkS$2$Benchは、ダイナミックUAV映像の1,022分を200km$2$の高解像度衛星画像とリンクする。
LMMを用いたパイプラインと厳密な人間のアノテーションを用いて17.9kの高品質な質問応答ペアを構築した。
評価は、人間のベースラインとはかなりの差を示し、正確なクロスビューのダイナミックアライメントを重要なボトルネックと特定する。
- 参考スコア(独自算出の注目度): 107.79496500634691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synergistic spatial intelligence between UAVs and satellites is indispensable for emergency response and security operations, as it uniquely integrates macro-scale global coverage with dynamic, real-time local perception. However, the capacity of Vision-Language Models (VLMs) to master this complex interplay remains largely unexplored. This gap persists primarily because existing benchmarks are confined to isolated Unmanned Aerial Vehicle (UAV) videos or static satellite imagery, failing to evaluate the dynamic local-to-global spatial mapping essential for comprehensive cross-view reasoning. To bridge this gap, we introduce LinkS$^2$Bench, the first comprehensive benchmark designed to evaluate VLMs' wide-area, dynamic cross-view spatial intelligence. LinkS$^2$Bench links 1,022 minutes of dynamic UAV footage with high-resolution satellite imagery covering over 200 km$^2$. Through an LMM-assisted pipeline and rigorous human annotation, we constructed 17.9k high-quality question-answer pairs comprising 12 fine-grained tasks across four dimensions: perception, localization, relation, and reasoning. Evaluations of 18 representative VLMs reveal a substantial gap compared to human baselines, identifying accurate cross-view dynamic alignment as the critical bottleneck. To alleviate this, we design a Cross-View Alignment Adapter, demonstrating that explicit alignment significantly improves model performance. Furthermore, fine-tuning experiments underscore the potential of LinkS$^2$Bench in advancing VLM adaptation for complex spatial reasoning.
- Abstract(参考訳): UAVと衛星間の相乗的空間知能は、動的でリアルタイムな局所的な知覚とマクロなグローバルなカバレッジを一意に統合するため、緊急応答とセキュリティ操作には不可欠である。
しかし、この複雑な相互作用をマスターするビジョン・ランゲージ・モデル(VLM)の能力はほとんど解明されていない。
このギャップは、既存のベンチマークが孤立した無人航空機(UAV)ビデオや静止衛星画像に限られており、包括的なクロスビュー推論に不可欠な局所-グローバル空間マッピングの動的な評価に失敗するため、主に持続する。
このギャップを埋めるために、VLMの広視野・ダイナミック・クロスビュー空間知能を評価するために設計された最初の総合的なベンチマークであるLinkS$^2$Benchを紹介する。
LinkS$^2$Benchは、200 km$^2$を超える高解像度の衛星画像と1022分間のダイナミックUAV映像をリンクする。
LMMを用いたパイプラインと厳密な人間のアノテーションを用いて、知覚、局所化、関係性、推論の4次元にわたる12のきめ細かいタスクからなる17.9kの高品質な質問応答ペアを構築した。
18の代表的なVLMの評価は、人間のベースラインと比較して大きなギャップを示し、正確なクロスビューダイナミックアライメントを重要なボトルネックとみなしている。
これを軽減するために、クロスビューアライメントアダプタを設計し、明示的なアライメントがモデルの性能を大幅に改善することを示した。
さらに、微調整実験は、複雑な空間推論のためのVLM適応の進展におけるLinkS$^2$Benchの可能性を示している。
関連論文リスト
- Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling [31.36539752384395]
クロスビューUAVジオローカライゼーションは、ドローンが捉えた画像の正確な空間座標を、地理的に参照された広範囲な衛星データベースと整列させることを目的としている。
改良されたUAV-Satellite画像マッチングのための共同関係モデリングを明示的に行うために設計された,新しいプラグアンドプレイランキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-03-09T07:57:29Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning [65.36458157092207]
視覚言語モデル(VLM)では、テキスト記述と視覚座標のミスアライメントはしばしば幻覚を引き起こす。
本稿では,座標の調整が難しい問題を回避するために,新しい視覚的プロンプトパラダイムを提案する。
本稿では,STVGの最初の強化学習フレームワークであるSTVG-R1を紹介する。
論文 参考訳(メタデータ) (2026-02-12T08:53:32Z) - Is your VLM Sky-Ready? A Comprehensive Spatial Intelligence Benchmark for UAV Navigation [38.19842131198389]
VLM(Vision-Language Models)はその強力な視覚認識と推論能力を活用し、無人航空機(UAV)のタスクに広く応用されている。
しかし、UAVシナリオにおける既存のVLMの空間的知能能力は、まだほとんど解明されていない。
本稿では,UAVナビゲーションにおけるVLMの空間的インテリジェンス能力を評価するためのベンチマークであるSpatialSky-Benchを紹介する。
論文 参考訳(メタデータ) (2025-11-17T11:39:20Z) - Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models [21.28937516885804]
我々は,タスクを4つの基本四分節に分類する認知的基盤の分類に基づく統合ベンチマークtextbfSpatial-DISEを提案する。
データ不足の問題に対処するため,多様かつ検証可能な空間的推論問題を生成するスケーラブルで自動化されたパイプラインを開発した。
論文 参考訳(メタデータ) (2025-10-15T10:44:01Z) - SD-VLM: Spatial Measuring and Understanding with Depth-Encoded Vision-Language Models [75.64836077468722]
視覚言語モデル(VLM)は2次元意味的視覚的理解において優れているが、3次元空間的関係について定量的に推論する能力はいまだ未解明のままである。
VLMの基本空間知覚能力を大幅に向上させる新しいフレームワークであるSD-VLMを提案する。
我々はSD-VLMを訓練した。これは強力な一般化VLMであり、より優れた空間的測定と理解能力を示す。
論文 参考訳(メタデータ) (2025-09-22T12:08:12Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - SpaceR: Reinforcing MLLMs in Video Spatial Reasoning [70.7401015322983]
ビデオ空間推論は、既存のマルチモーダル大言語モデル(MLLM)にとって重要な課題である
この制限は主に、1)このタスクに高品質なデータセットがないこと、2)空間推論能力を開発するための効果的なトレーニング戦略がないことに由来する。
空間推論能力のアンロックにおける強化学習(Reinforcement Learning with Verifiable Reward, RLVR)の成功により, RLVRパラダイムを通じて映像空間推論におけるMLLMの改善を目指す。
論文 参考訳(メタデータ) (2025-04-02T15:12:17Z) - Vision-Based UAV Self-Positioning in Low-Altitude Urban Environments [20.69412701553767]
無人航空機(UAV)は安定した位置決めのために衛星システムに依存している。
このような状況下では、視覚に基づく技術が代替手段として機能し、UAVの自己配置能力を確実にする。
本稿では,UAV自己配置タスク用に設計された最初の公開データセットであるDenseUAVを提案する。
論文 参考訳(メタデータ) (2022-01-23T07:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。