論文の概要: See&Say: Vision Language Guided Safe Zone Detection for Autonomous Package Delivery Drones
- arxiv url: http://arxiv.org/abs/2604.13292v1
- Date: Tue, 14 Apr 2026 20:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.295128
- Title: See&Say: Vision Language Guided Safe Zone Detection for Autonomous Package Delivery Drones
- Title(参考訳): See&Say: 自律パッケージ配達ドローンの安全ゾーン検出を視覚言語でガイド
- Authors: Mahyar Ghazanfari, Peng Wei,
- Abstract要約: See&Sayは、幾何学的安全性と意味認識を組み合わせた新しいフレームワークであり、反復的洗練のためのビジョン・ランゲージ・モデル(VLM)によってガイドされている。
See&Sayは全ベースラインを上回り、安全マップ予測の精度とIoUを達成する。
これらの知見は,VLM誘導セグメンテーション深度融合が,安全で実用的なドローンパッケージの配送を促進することの可能性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 3.719121868494767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous drone delivery systems are rapidly advancing, but ensuring safe and reliable package drop-offs remains highly challenging in cluttered urban and suburban environments where accurately identifying suitable package drop zones is critical. Existing approaches typically rely on either geometry-based analysis or semantic segmentation alone, but these methods lack the integrated semantic reasoning required for robust decision-making. To address this gap, we propose See&Say, a novel framework that combines geometric safety cues with semantic perception, guided by a Vision-Language Model (VLM) for iterative refinement. The system fuses monocular depth gradients with open-vocabulary detection masks to produce safety maps, while the VLM dynamically adjusts object category prompts and refines hazard detection across time, enabling reliable reasoning under dynamic conditions during the final delivery phase. When the primary drop-pad is occupied or unsafe, the proposed See&Say also identifies alternative candidate zones for package delivery. We curated a dataset of urban delivery scenarios with moving objects and human activities to evaluate the approach. Experimental results show that See&Say outperforms all baselines, achieving the highest accuracy and IoU for safety map prediction as well as superior performance in alternative drop zone evaluation across multiple thresholds. These findings highlight the promise of VLM-guided segmentation-depth fusion for advancing safe and practical drone-based package delivery.
- Abstract(参考訳): 自律型ドローンの配達システムは急速に進歩しているが、適切なパッケージドロップゾーンを正確に特定する都市や郊外の混乱した環境において、安全で信頼性の高いパッケージドロップオフの確保は依然として極めて困難である。
既存のアプローチは通常、幾何学に基づく分析とセマンティックセグメンテーションにのみ依存するが、これらの手法は堅牢な意思決定に必要な統合的なセマンティック推論を欠いている。
このギャップに対処するために,幾何的安全性と意味認識を組み合わせた新しいフレームワークであるSeee&Sayを提案する。
VLMはオブジェクトカテゴリのプロンプトを動的に調整し、時間とともにハザード検出を洗練し、最終納期における動的条件下での信頼性の高い推論を可能にする。
プライマリドロップパッドが占有または安全でない場合、提案されたSee&Sayは、パッケージ配信の代替候補ゾーンも特定する。
提案手法を評価するため,移動物体と人的活動を用いて都市デリバリシナリオのデータセットをキュレートした。
実験結果から,See&Sayは全ベースラインを上回り,安全マップ予測において最高精度とIoUを達成し,複数閾値にわたる代替ドロップゾーン評価において優れた性能を示した。
これらの結果は、安全で実用的なドローンベースのパッケージ配送を促進するために、VLM誘導セグメンテーション深度融合を約束していることを強調している。
関連論文リスト
- Multi-Agent Off-World Exploration for Sparse Evidence Discovery via Gaussian Belief Mapping and Dual-Domain Coverage [15.524614683513834]
本稿では,ガウス的信念マッピングと二重領域カバレッジに基づくスパースエビデンス発見のためのマルチエージェント情報経路計画フレームワークを提案する。
シミュレーションした月面環境における実験結果から,提案手法は,異なる予算と通信範囲でサンプリングベースおよびグリーディベースラインを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2026-03-08T14:27:41Z) - Eva-Tracker: ESDF-update-free, Visibility-aware Planning with Target Reacquisition for Robust Aerial Tracking [51.06229328990625]
Eva-Trackerは、航空追跡のための可視性を考慮した軌道計画フレームワークである。
ESDF更新を排除し、リカバリ可能なパス生成メソッドを組み込んで、ターゲット再取得を行う。
提案手法は,従来の最先端手法よりも計算労力の少ないロバストな追跡結果を提供する。
論文 参考訳(メタデータ) (2026-02-13T02:56:34Z) - Agentic Spatio-Temporal Grounding via Collaborative Reasoning [80.83158605034465]
時間的ビデオグラウンド(Temporal Video Grounding)は、テキストクエリが与えられたビデオ内の対象物または人の時間的チューブを検索することを目的としている。
本稿では,STVGの課題に対して,オープンワールドおよびトレーニングフリーシナリオに向けたエージェント時空間グラウンド(ASTG)フレームワークを提案する。
具体的には、現代多言語モデル(MLLM)を活用した2つの特殊エージェントSRA(Spatial Reasoning Agent)とTRA(Temporal Reasoning Agent)である。
人気のあるベンチマークの実験は、既存の弱教師付きおよびゼロショットアプローチをマージンで上回る提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2026-02-10T10:16:27Z) - Semantically Aware UAV Landing Site Assessment from Remote Sensing Imagery via Multimodal Large Language Models [5.987458168544856]
安全UAV緊急着陸には、従来の幾何学的センサーに見えない複雑なセマンティックなリスクを理解する必要がある。
本稿では,リモートセンシング(RS)画像とマルチモーダル大規模言語モデル(MLLM)を併用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T11:30:03Z) - OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows [77.95511352806261]
VLM(Vision-Language Models)を利用したコンピュータ利用エージェントは、モバイルプラットフォームのようなデジタル環境を操作する上で、人間のような能力を実証している。
我々は,明示的なシステムレベルの違反を検出するための形式検証器と,文脈的リスクとエージェント行動を評価するコンテキスト判断器を組み合わせた,新しいハイブリッド安全検出フレームワークOS-Sentinelを提案する。
論文 参考訳(メタデータ) (2025-10-28T13:22:39Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - VisLanding: Monocular 3D Perception for UAV Safe Landing via Depth-Normal Synergy [0.0]
VisLandingは、無人航空機(Unmanned Aerial Vehicle)の安全な着陸のための知覚ベースのフレームワークである。
提案手法は, クロスドメインテストにおいて, 他の手法と比較して優れた一般化とロバスト性を示す。
論文 参考訳(メタデータ) (2025-06-17T13:51:16Z) - From Shadows to Safety: Occlusion Tracking and Risk Mitigation for Urban Autonomous Driving [1.8434042562191815]
本研究は、リスク認識型モーションプランニングと閉塞追跡における既存のアプローチを構築し、拡張する。
我々は,隠蔽領域の追跡と潜在的な危険の予測にシーケンシャル推論を組み込むことにより,幻エージェント中心モデルを強化する。
シミュレーションにより,提案手法は状況認識を改善し,能動的安全と効率的な交通流とのバランスを図っている。
論文 参考訳(メタデータ) (2025-04-02T06:48:50Z) - Deep Monocular Hazard Detection for Safe Small Body Landing [12.922946578413578]
危険検出と回避は、将来ロボットによる小型ボディサンプルの回収と着陸ミッションの鍵となる技術である。
本研究では,単一の単眼画像から直接着地安全性を予測するために,深いセマンティックセグメンテーション技術を活用する新しい安全マッピングパラダイムを提案する。
本研究は,OSIRIS-RExミッションから得られたサンプルの実際のその場画像に対して,高精度かつ正確な安全マッピング性能を示す。
論文 参考訳(メタデータ) (2023-01-30T19:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。