論文の概要: AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios
- arxiv url: http://arxiv.org/abs/2511.21053v1
- Date: Wed, 26 Nov 2025 04:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.968402
- Title: AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios
- Title(参考訳): AerialMind:UAVシナリオにおけるマルチオブジェクト追跡の参照を目指して
- Authors: Chenglizhao Chen, Shaofeng Liang, Runwei Guan, Xiaolou Sun, Haocheng Zhao, Haiyun Jiang, Tao Huang, Henghui Ding, Qing-Long Han,
- Abstract要約: UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
- 参考スコア(独自算出の注目度): 64.51320327698231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Multi-Object Tracking (RMOT) aims to achieve precise object detection and tracking through natural language instructions, representing a fundamental capability for intelligent robotic systems. However, current RMOT research remains mostly confined to ground-level scenarios, which constrains their ability to capture broad-scale scene contexts and perform comprehensive tracking and path planning. In contrast, Unmanned Aerial Vehicles (UAVs) leverage their expansive aerial perspectives and superior maneuverability to enable wide-area surveillance. Moreover, UAVs have emerged as critical platforms for Embodied Intelligence, which has given rise to an unprecedented demand for intelligent aerial systems capable of natural language interaction. To this end, we introduce AerialMind, the first large-scale RMOT benchmark in UAV scenarios, which aims to bridge this research gap. To facilitate its construction, we develop an innovative semi-automated collaborative agent-based labeling assistant (COALA) framework that significantly reduces labor costs while maintaining annotation quality. Furthermore, we propose HawkEyeTrack (HETrack), a novel method that collaboratively enhances vision-language representation learning and improves the perception of UAV scenarios. Comprehensive experiments validated the challenging nature of our dataset and the effectiveness of our method.
- Abstract(参考訳): Referring Multi-Object Tracking (RMOT)は、インテリジェントなロボットシステムの基本機能として、自然言語命令を通じて正確な物体の検出と追跡を実現することを目的としている。
しかし、RMOTの現在の研究はほとんどが地上レベルのシナリオに限られており、広い範囲のシーンを捉え、包括的な追跡と経路計画を実行する能力に制限が課されている。
対照的に、無人航空機(UAV)は、広範囲の監視を可能にするために、その拡大した航空視界と優れた操縦性を活用している。
さらに、UAVはエンボディード・インテリジェンスにとって重要なプラットフォームとして現れており、自然言語の相互作用が可能なインテリジェントな航空システムに対する前例のない需要が生まれている。
この目的のために我々は,この研究ギャップを埋めることを目的とした,UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介した。
その構築を容易にするために,アノテーションの品質を維持しながら作業コストを大幅に削減する,半自動協調型エージェントベースラベリングアシスタント(COALA)フレームワークを開発した。
さらに、視覚言語表現学習を協調的に強化し、UAVシナリオの認識を改善する新しい手法であるHawkEyeTrack(HETrack)を提案する。
包括的実験により,データセットの難易度と手法の有効性が検証された。
関連論文リスト
- UAV-VLN: End-to-End Vision Language guided Navigation for UAVs [0.0]
AI誘導の自律性における中核的な課題は、エージェントが以前見えなかった環境で現実的で効果的にナビゲートできるようにすることである。
UAV-VLNは無人航空機(UAV)のための新しいエンドツーエンドビジョンランゲージナビゲーションフレームワークである。
本システムでは,自由形式の自然言語命令を解釈し,視覚的観察に利用し,多様な環境下で実現可能な航空軌道を計画する。
論文 参考訳(メタデータ) (2025-04-30T08:40:47Z) - More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection benchmark for UAV [58.89234732689013]
CODroneは、現実の状況を正確に反映した、UAVのための包括的なオブジェクト指向オブジェクト検出データセットである。
また、下流のタスク要求に合わせて設計された新しいベンチマークとしても機能する。
我々は、CODroneを厳格に評価するために、22の古典的またはSOTA法に基づく一連の実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:56:02Z) - UAVs Meet LLMs: Overviews and Perspectives Toward Agentic Low-Altitude Mobility [33.73170899086857]
無人航空機(UAV)に代表される低高度機動性は、様々な領域に変革をもたらす。
本稿では,大規模言語モデル(LLM)とUAVの統合について検討する。
UAVとLLMが収束する主要なタスクとアプリケーションシナリオを分類し分析する。
論文 参考訳(メタデータ) (2025-01-04T17:32:12Z) - Open-World Drone Active Tracking with Goal-Centered Rewards [62.21394499788672]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。
DATは,世界初となるエア・ツー・グラウンド・トラッキング・ベンチマークである。
また,複雑なシナリオにおけるドローン追跡目標の性能向上を目的としたGC-VATを提案する。
論文 参考訳(メタデータ) (2024-12-01T09:37:46Z) - Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology [38.2096731046639]
UAV視覚言語ナビゲーションにおける最近の取り組みは、主に地上ベースのVLN設定を採用する。
プラットフォーム,ベンチマーク,方法論という3つの観点からのソリューションを提案する。
論文 参考訳(メタデータ) (2024-10-09T17:29:01Z) - A Multi-UAV System for Exploration and Target Finding in Cluttered and
GPS-Denied Environments [68.31522961125589]
複雑なGPSを用いた複雑な環境において,UAVのチームが協調して目標を探索し,発見するための枠組みを提案する。
UAVのチームは自律的にナビゲートし、探索し、検出し、既知の地図で散らばった環境でターゲットを見つける。
その結果, 提案方式は, 時間的コスト, 調査対象地域の割合, 捜索・救助ミッションの成功率などの面で改善されていることがわかった。
論文 参考訳(メタデータ) (2021-07-19T12:54:04Z) - Transferable Deep Reinforcement Learning Framework for Autonomous
Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。
そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。
提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文 参考訳(メタデータ) (2021-05-28T08:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。