論文の概要: VANGUARD: Vehicle-Anchored Ground Sample Distance Estimation for UAVs in GPS-Denied Environments
- arxiv url: http://arxiv.org/abs/2603.04277v1
- Date: Wed, 04 Mar 2026 16:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.413182
- Title: VANGUARD: Vehicle-Anchored Ground Sample Distance Estimation for UAVs in GPS-Denied Environments
- Title(参考訳): VANGUARD:GPS環境下でのUAVの車載地サンプル距離推定
- Authors: Yifei Chen, Xupeng Chen, Feng Wang, Niangang Jiao, Jiayin Liu,
- Abstract要約: VANGUARDは、航空ロボットのための呼び出し可能なツールとして設計された軽量で決定論的幾何学的知覚スキルである。
DOTAv1.5ベンチマークでは、VANGUARDは306imagesで6.87%中央値のGSDエラーを達成している。
下流領域の測定のためにSAMベースのセグメンテーションと統合され、パイプラインは100エントリのベンチマークで19.7%の中央値エラーを発生させる。
- 参考スコア(独自算出の注目度): 7.390183878674011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous aerial robots operating in GPS-denied or communication-degraded environments frequently lose access to camera metadata and telemetry, leaving onboard perception systems unable to recover the absolute metric scale of the scene. As LLM/VLM-based planners are increasingly adopted as high-level agents for embodied systems, their ability to reason about physical dimensions becomes safety-critical -- yet our experiments show that five state-of-the-art VLMs suffer from spatial scale hallucinations, with median area estimation errors exceeding 50%. We propose VANGUARD, a lightweight, deterministic Geometric Perception Skill designed as a callable tool that any LLM-based agent can invoke to recover Ground Sample Distance (GSD) from ubiquitous environmental anchors: small vehicles detected via oriented bounding boxes, whose modal pixel length is robustly estimated through kernel density estimation and converted to GSD using a pre-calibrated reference length. The tool returns both a GSD estimate and a composite confidence score, enabling the calling agent to autonomously decide whether to trust the measurement or fall back to alternative strategies. On the DOTA~v1.5 benchmark, VANGUARD achieves 6.87% median GSD error on 306~images. Integrated with SAM-based segmentation for downstream area measurement, the pipeline yields 19.7% median error on a 100-entry benchmark -- with 2.6x lower category dependence and 4x fewer catastrophic failures than the best VLM baseline -- demonstrating that equipping agents with deterministic geometric tools is essential for safe autonomous spatial reasoning.
- Abstract(参考訳): GPSや通信の劣化した環境で動く自律飛行ロボットは、しばしばカメラメタデータやテレメトリへのアクセスを失い、搭載された知覚システムはシーンの絶対的なメートル法スケールを回復することができない。
LLM/VLMをベースとしたプランナーは、エンボディドシステムの高レベルエージェントとしてますます採用されているため、物理的次元を推論する能力は安全に欠かせないものとなり、我々の実験では、5つの最先端のVLMが空間的スケールの幻覚に悩まされ、中央値の領域推定誤差が50%を超えることが示されている。
我々は,LLMをベースとしたエージェントが任意の環境アンカーから地上サンプル距離(GSD)を回収するためのコール可能なツールとして設計された,軽量で決定論的な幾何学的知覚スキルであるVANGUARDを提案する。
このツールは、GSD推定値と複合信頼スコアの両方を返却し、呼び出しエージェントが、測定を信頼するか、代替戦略にフォールバックするかを自律的に決定できるようにする。
DOTA~v1.5ベンチマークでは、VANGUARDは306〜imagesで6.87%中央値のGSDエラーを達成している。
SAMベースの下流領域測定のセグメンテーションと統合され、パイプラインは100エントリのベンチマークで19.7%の中央値エラーを発生し、カテゴリー依存は2.6倍、破滅的な障害は最高のVLMベースラインより4倍少ない。
関連論文リスト
- Autonomous Navigation of Cloud-Controlled Quadcopters in Confined Spaces Using Multi-Modal Perception and LLM-Driven High Semantic Reasoning [0.0]
本稿では,GPSを用いた屋内環境における自律ナビゲーションのための高度なAI駆動認識システムを提案する。
システムは、物体検出用YOLOv11、単眼深度推定用深度任意のV2、タイム・オブ・ライト(ToF)センサーと慣性測定ユニット(IMU)を備えたPCBを統合する。
室内テストベッドにおける実験結果は、平均平均精度(mAP50)が0.6、深さ推定平均絶対誤差(MAE)が7.2cm、エンドツーエンドのシステム遅延が1秒以下で達成された。
論文 参考訳(メタデータ) (2025-08-11T12:00:03Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Toward Onboard AI-Enabled Solutions to Space Object Detection for Space Sustainability [29.817805350971366]
本稿では,空間物体検出のための視覚センサの実現可能性と有効性について検討する。
Squeeze-and-Excitation (SE) 層, Vision Transformer (ViT) および Generalized Efficient Layer Aggregation Network (GELAN) に基づくモデルを導入する。
実験の結果, 提案モデルでは, 結合閾値0.5(mAP50)の交点平均精度が0.751, 結合閾値0.5から0.95(mAP50:95)の交点平均精度が0.280に達することがわかった。
論文 参考訳(メタデータ) (2025-05-03T01:56:52Z) - Segmenting Objectiveness and Task-awareness Unknown Region for Autonomous Driving [46.70405993442064]
本稿では,自律走行シーンのためのセグメンティング・オブジェクトネスとタスク・アウェアネス(SOTA)という新しいフレームワークを提案する。
SOTAは、セマンティック・フュージョン・ブロック(SFB)を通じて目的のセグメンテーションを強化し、道路ナビゲーションタスクに関係のない異常をフィルタリングする。
論文 参考訳(メタデータ) (2025-04-27T10:08:54Z) - SURDS: Benchmarking Spatial Understanding and Reasoning in Driving Scenarios with Vision Language Models [15.50826328938879]
視覚言語モデル(VLM)の空間的推論能力を評価するためのベンチマークであるSURDSを紹介する。
nuScenesデータセットに基づいて構築されたSURDSは、41,080の視覚要求回答トレーニングインスタンスと9,250の評価サンプルで構成されている。
本研究では,空間的に接地された報酬信号を利用した強化学習に基づくアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-11-20T08:14:01Z) - Secure Navigation using Landmark-based Localization in a GPS-denied
Environment [1.19658449368018]
本稿では,ランドマークに基づくローカライゼーション(LanBLoc)と拡張カルマンフィルタ(EKF)を統合した新たなフレームワークを提案する。
本稿では,障害物や危険のない経路を移動する物体を誘導する2つのアプローチについて,シミュレーションした戦場シナリオを提案する。
論文 参考訳(メタデータ) (2024-02-22T04:41:56Z) - AdvGPS: Adversarial GPS for Multi-Agent Perception Attack [47.59938285740803]
本研究は,マルチエージェント認識システムにおいて,特定のGPS信号が容易に誤認できるかどうかを考察する。
我々は,システム内の個々のエージェントに対してステルス性を持つ逆GPS信号を生成可能なtextscAdvGPSを紹介する。
OPV2Vデータセットに対する実験により、これらの攻撃が最先端の手法の性能を著しく損なうことを示した。
論文 参考訳(メタデータ) (2024-01-30T23:13:41Z) - Ultra-low Power Deep Learning-based Monocular Relative Localization
Onboard Nano-quadrotors [64.68349896377629]
この研究は、2つのピアナノドロンのディープニューラルネットワーク(DNN)を介して、単分子の相対的な局所化に対処する、新しい自律的なエンドツーエンドシステムを示す。
超制約ナノドローンプラットフォームに対処するため,データセットの増大,量子化,システム最適化などを含む垂直統合フレームワークを提案する。
実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。
論文 参考訳(メタデータ) (2023-03-03T14:14:08Z) - Learned Risk Metric Maps for Kinodynamic Systems [54.49871675894546]
本研究では,高次元力学系のコヒーレントリスクメトリクスをリアルタイムに推定するための学習型リスクメトリクスマップを提案する。
LRMMモデルは設計と訓練が簡単で、障害セットの手続き的生成、状態と制御のサンプリング、および関数近似器の教師付きトレーニングのみを必要とする。
論文 参考訳(メタデータ) (2023-02-28T17:51:43Z) - Inertial Hallucinations -- When Wearable Inertial Devices Start Seeing
Things [82.15959827765325]
環境支援型生活(AAL)のためのマルチモーダルセンサフュージョンの新しいアプローチを提案する。
我々は、標準マルチモーダルアプローチの2つの大きな欠点、限られた範囲のカバレッジ、信頼性の低下に対処する。
我々の新しいフレームワークは、三重項学習によるモダリティ幻覚の概念を融合させ、異なるモダリティを持つモデルを訓練し、推論時に欠落したセンサーに対処する。
論文 参考訳(メタデータ) (2022-07-14T10:04:18Z) - Distributed Variable-Baseline Stereo SLAM from two UAVs [17.513645771137178]
本稿では,単眼カメラを1台,IMUを1台搭載した2台のUAVを用いて,視界の重なりと相対距離の測定を行った。
本稿では,glsuavエージェントを自律的に制御するために,分散協調推定方式を提案する。
我々は,高度160mまでの飛行におけるアプローチの有効性を実証し,最先端のVIO手法の能力を大きく超えている。
論文 参考訳(メタデータ) (2020-09-10T12:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。