論文の概要: Enhancing Low-Altitude Airspace Security: MLLM-Enabled UAV Intent Recognition
- arxiv url: http://arxiv.org/abs/2509.06312v1
- Date: Mon, 08 Sep 2025 03:34:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.958517
- Title: Enhancing Low-Altitude Airspace Security: MLLM-Enabled UAV Intent Recognition
- Title(参考訳): 低高度空域セキュリティの強化:MLLM対応UAVインテント認識
- Authors: Guangyu Lei, Tianhao Liang, Yuqi Ping, Xinglin Chen, Longyu Zhou, Junwei Wu, Xiyuan Zhang, Huahao Ding, Xingjian Zhang, Weijie Yuan, Tingting Zhang, Qinyu Zhang,
- Abstract要約: 低高度経済の急速な発展は、非協力的無人航空機(UAV)の効果的な認識と意図認識の必要性を強調する
マルチモーダル大規模言語モデル(MLLM)の先進的な生成的推論能力は,そのようなタスクにおいて有望なアプローチを示す。
まずMLLM対応UAV意図認識アーキテクチャを提案し,UAVのリアルタイムペイロードと動作情報を得るためにマルチモーダル認識システムを利用する。
- 参考スコア(独自算出の注目度): 27.668388138106312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of the low-altitude economy emphasizes the critical need for effective perception and intent recognition of non-cooperative unmanned aerial vehicles (UAVs). The advanced generative reasoning capabilities of multimodal large language models (MLLMs) present a promising approach in such tasks. In this paper, we focus on the combination of UAV intent recognition and the MLLMs. Specifically, we first present an MLLM-enabled UAV intent recognition architecture, where the multimodal perception system is utilized to obtain real-time payload and motion information of UAVs, generating structured input information, and MLLM outputs intent recognition results by incorporating environmental information, prior knowledge, and tactical preferences. Subsequently, we review the related work and demonstrate their progress within the proposed architecture. Then, a use case for low-altitude confrontation is conducted to demonstrate the feasibility of our architecture and offer valuable insights for practical system design. Finally, the future challenges are discussed, followed by corresponding strategic recommendations for further applications.
- Abstract(参考訳): 低高度経済の急速な発展は、非協力的無人航空機(UAV)の効果的な認識と意図認識に対する重要な必要性を強調している。
マルチモーダル大規模言語モデル(MLLM)の先進的な生成的推論能力は,そのようなタスクにおいて有望なアプローチを示す。
本稿では,UAV意図認識とMLLMの組み合わせに着目した。
具体的には,マルチモーダル認識システムを用いて,UAVのリアルタイムペイロードと動作情報を取得し,構造化された入力情報を生成し,MLLMが環境情報や事前知識,戦術的嗜好を取り入れて意図認識結果を出力する,MLLM対応UAV意図認識アーキテクチャを提案する。
その後、関連する研究をレビューし、提案アーキテクチャ内での進捗を実証する。
次に、アーキテクチャの実現可能性を示し、実用的なシステム設計に有用な洞察を提供するために、低高度対決のユースケースを行う。
最後に、今後の課題について議論し、その後、さらなるアプリケーションに対する戦略的な推奨を行う。
関連論文リスト
- A Systematic Survey of Model Extraction Attacks and Defenses: State-of-the-Art and Perspectives [65.3369988566853]
近年の研究では、敵が対象モデルの機能を複製できることが示されている。
モデル抽出攻撃は知的財産権、プライバシー、システムのセキュリティに脅威をもたらす。
本稿では,攻撃機構,防衛手法,計算環境に応じてMEAを分類する新しい分類法を提案する。
論文 参考訳(メタデータ) (2025-08-20T19:49:59Z) - Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.140883026848286]
アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。
近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文 参考訳(メタデータ) (2025-05-27T17:29:31Z) - Expanding the Boundaries of Vision Prior Knowledge in Multi-modal Large Language Models [51.84752285423123]
本稿では,ビジョンエンコーダの事前知識がMLLM性能に与える影響を定量化するために,新しい計量である$Rank_e$を導入する。
視覚エンコーダレベルでの事前知識を明確に組み込んだ2段階トレーニングフレームワークであるVisPRE(Vision Prior Remediation)を提案する。
実験の結果,視覚エンコーダの事前知識の増大はMLLMの視覚理解能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-03-23T11:33:09Z) - UAVs Meet LLMs: Overviews and Perspectives Toward Agentic Low-Altitude Mobility [33.73170899086857]
無人航空機(UAV)に代表される低高度機動性は、様々な領域に変革をもたらす。
本稿では,大規模言語モデル(LLM)とUAVの統合について検討する。
UAVとLLMが収束する主要なタスクとアプリケーションシナリオを分類し分析する。
論文 参考訳(メタデータ) (2025-01-04T17:32:12Z) - Integrating Large Language Models for UAV Control in Simulated Environments: A Modular Interaction Approach [0.3495246564946556]
本研究では,UAV制御における大規模言語モデルの適用について検討する。
UAVが自然言語コマンドを解釈し、応答できるようにすることで、LLMはUAVの制御と使用を簡素化する。
本稿では,自律的な意思決定,動的なミッション計画,状況認識の向上,安全プロトコルの改善など,LCMがUAV技術に影響を与えるいくつかの重要な領域について論じる。
論文 参考訳(メタデータ) (2024-10-23T06:56:53Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Large Language Models for UAVs: Current State and Pathways to the Future [6.85423435360359]
無人航空機(UAV)は様々な分野にまたがるトランスフォーメーション技術として登場した。
この研究は、自律システムの開発を促進するために、UAVとLarge Language Models(LLM)を統合する大きな可能性を探求する。
論文 参考訳(メタデータ) (2024-05-02T21:30:10Z) - Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。
我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-03-30T10:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。