論文の概要: Semantically Aware UAV Landing Site Assessment from Remote Sensing Imagery via Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.01163v1
- Date: Sun, 01 Feb 2026 11:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.637719
- Title: Semantically Aware UAV Landing Site Assessment from Remote Sensing Imagery via Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルによるリモートセンシング画像からのUAV着陸地点の評価
- Authors: Chunliang Hua, Zeyuan Yang, Lei Zhang, Jiayang Sun, Fengwen Chen, Chunlan Zeng, Xiao Hu,
- Abstract要約: 安全UAV緊急着陸には、従来の幾何学的センサーに見えない複雑なセマンティックなリスクを理解する必要がある。
本稿では,リモートセンシング(RS)画像とマルチモーダル大規模言語モデル(MLLM)を併用した新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.987458168544856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe UAV emergency landing requires more than just identifying flat terrain; it demands understanding complex semantic risks (e.g., crowds, temporary structures) invisible to traditional geometric sensors. In this paper, we propose a novel framework leveraging Remote Sensing (RS) imagery and Multimodal Large Language Models (MLLMs) for global context-aware landing site assessment. Unlike local geometric methods, our approach employs a coarse-to-fine pipeline: first, a lightweight semantic segmentation module efficiently pre-screens candidate areas; second, a vision-language reasoning agent fuses visual features with Point-of-Interest (POI) data to detect subtle hazards. To validate this approach, we construct and release the Emergency Landing Site Selection (ELSS) benchmark. Experiments demonstrate that our framework significantly outperforms geometric baselines in risk identification accuracy. Furthermore, qualitative results confirm its ability to generate human-like, interpretable justifications, enhancing trust in automated decision-making. The benchmark dataset is publicly accessible at https://anonymous.4open.science/r/ELSS-dataset-43D7.
- Abstract(参考訳): 安全UAV緊急着陸には、単に平坦な地形を特定するだけでなく、従来の幾何学的センサーには見えない複雑なセマンティックリスク(群衆、一時的な構造など)を理解する必要がある。
本稿では,リモートセンシング(RS)画像とマルチモーダル大規模言語モデル(MLLM)をグローバルな文脈認識型ランディングサイトアセスメントに活用する新しいフレームワークを提案する。
局所的な幾何学的手法とは違って,本手法では,まず軽量なセマンティックセグメンテーションモジュールが候補領域を効果的にプレスクリーンし,第2に視覚言語推論エージェントがポイント・オブ・ゲスト(POI)データで視覚特徴を融合させ,微妙なハザードを検出する。
このアプローチを検証するため,緊急着陸地点選択(ELSS)ベンチマークを構築し,リリースする。
実験により,我々のフレームワークは,リスク識別精度において,幾何学的基準線を著しく上回っていることが示された。
さらに、質的な結果は、人間のように解釈可能な正当性を生成する能力を確認し、自動意思決定における信頼を高める。
ベンチマークデータセットはhttps://anonymous.4open.science/r/ELSS-dataset-43D7で公開されている。
関連論文リスト
- RIS-LAD: A Benchmark and Model for Referring Low-Altitude Drone Image Segmentation [26.836547579041067]
Referring ImageHide (RIS)は、自然言語の記述に基づいて特定のオブジェクトを分割することを目的としている。
既存のデータセットとメソッドは、一般的に高高度および静的な画像のために設計されている。
RIS-LADは、低高度ドローン(LAD)のシナリオ用に調整された、最初のきめ細かいRISベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T15:21:03Z) - Towards a Multi-Agent Vision-Language System for Zero-Shot Novel Hazardous Object Detection for Autonomous Driving Safety [0.0]
視覚言語推論とゼロショットオブジェクト検出を統合したマルチモーダル手法を提案する。
予測ハザードとバウンディングボックスアノテーションを一致させるために,OpenAIのCLIPモデルを取り入れたオブジェクト検出を改良する。
その結果,現在の視覚言語に基づくアプローチの長所と短所が明らかになった。
論文 参考訳(メタデータ) (2025-04-18T01:25:02Z) - SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。
我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。
SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-04-13T16:36:47Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [81.93945602120453]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Federated Adversarial Learning for Robust Autonomous Landing Runway Detection [6.029462194041386]
本稿では,着陸滑走路を検出するための対向学習フレームワークを提案する。
我々の知る限りでは、着陸滑走路検出における対向的なサンプル問題に対処する連合学習の事例としては、これが初めてである。
論文 参考訳(メタデータ) (2024-06-22T19:31:52Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - Bayesian Deep Learning for Segmentation for Autonomous Safe Planetary Landing [7.1581738936972]
本稿では,ベイジアンディープラーニングセグメンテーション法のハザード検出への応用を提案する。
ベイジアンディープラーニングとセマンティックセグメンテーションを通じて、安全予測マップとその不確実性マップを同時に生成する。
実験は、Mars HiRISEデジタル地形モデルに基づくシミュレーションデータで示される。
論文 参考訳(メタデータ) (2021-02-21T08:13:49Z) - MRDet: A Multi-Head Network for Accurate Oriented Object Detection in
Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。
正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。
各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文 参考訳(メタデータ) (2020-12-24T06:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。