論文の概要: UAV-Track VLA: Embodied Aerial Tracking via Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2604.02241v1
- Date: Thu, 02 Apr 2026 16:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.920129
- Title: UAV-Track VLA: Embodied Aerial Tracking via Vision-Language-Action Models
- Title(参考訳): UAVトラックVLA:ビジョン・ランゲージ・アクションモデルによる航空機追尾
- Authors: Qiyao Zhang, Shuhua Zheng, Jianli Sun, Chengxiang Li, Xianke Wu, Zihan Song, Zhiyong Cui, Yisheng Lv, Yonglin Tian,
- Abstract要約: 複雑な現実世界のタスクを実行する無人航空機(UAV)にとって、身体的視線追跡は不可欠である。
このような環境でのマルチモーダルトラッキングをベンチマークするために,890Kのフレーム,176のタスク,85の多様なオブジェクトを含む大規模データセットを構築した。
本稿では,$_0.5$アーキテクチャ上に構築した改良型VLA追跡モデルUAV-Track VLAを提案する。
- 参考スコア(独自算出の注目度): 14.433739259355406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied visual tracking is crucial for Unmanned Aerial Vehicles (UAVs) executing complex real-world tasks. In dynamic urban scenarios with complex semantic requirements, Vision-Language-Action (VLA) models show great promise due to their cross-modal fusion and continuous action generation capabilities. To benchmark multimodal tracking in such environments, we construct a dedicated evaluation benchmark and a large-scale dataset encompassing over 890K frames, 176 tasks, and 85 diverse objects. Furthermore, to address temporal feature redundancy and the lack of spatial geometric priors in existing VLA models, we propose an improved VLA tracking model, UAV-Track VLA. Built upon the $π_{0.5}$ architecture, our model introduces a temporal compression net to efficiently capture inter-frame dynamics. Additionally, a parallel dual-branch decoder comprising a spatial-aware auxiliary grounding head and a flow matching action expert is designed to decouple cross-modal features and generate fine-grained continuous actions. Systematic experiments in the CARLA simulator validate the superior end-to-end performance of our method. Notably, in challenging long-distance pedestrian tracking tasks, UAV-Track VLA achieves a 61.76\% success rate and 269.65 average tracking frames, significantly outperforming existing baselines. Furthermore, it demonstrates robust zero-shot generalization in unseen environments and reduces single-step inference latency by 33.4\% (to 0.0571s) compared to the original $π_{0.5}$, enabling highly efficient, real-time UAV control. Data samples and demonstration videos are available at: https://github.com/Hub-Tian/UAV-Track\_VLA.
- Abstract(参考訳): 複雑な現実世界のタスクを実行する無人航空機(UAV)にとって、身体的視線追跡は不可欠である。
複雑なセマンティック要件を持つ動的都市シナリオでは、ビジョン・ランゲージ・アクション(VLA)モデルは、それらの相互融合と連続的なアクション生成能力により、非常に有望である。
このような環境でのマルチモーダルトラッキングをベンチマークするために,890K以上のフレーム,176のタスク,85の多様なオブジェクトを含む大規模データセットと専用の評価ベンチマークを構築した。
さらに,既存のVLAモデルにおける時間的特徴冗長性と空間幾何学的先行点の欠如に対処するため,改良されたVLA追跡モデルUAV-Track VLAを提案する。
π_{0.5}$アーキテクチャに基づいて、フレーム間ダイナミクスを効率的に捉えるための時間圧縮ネットを導入している。
また、空間認識補助接地ヘッドとフローマッチングアクションエキスパートとからなる並列デュアルブランチデコーダは、クロスモーダル特徴を分離し、きめ細かい連続動作を生成するように設計されている。
CARLAシミュレータのシステム実験により,本手法の優れたエンド・ツー・エンド性能が検証された。
特に、長距離歩行者追跡タスクにおいて、UAV-Track VLAは61.76\%の成功率と269.65の平均追跡フレームを達成し、既存のベースラインを大幅に上回っている。
さらに、目に見えない環境での堅牢なゼロショットの一般化を示し、元の$π_{0.5}$と比較して、シングルステップの推論遅延を33.4\%(0.0571s)削減し、高効率でリアルタイムなUAV制御を可能にする。
データサンプルとデモビデオは、https://github.com/Hub-Tian/UAV-Track\_VLAで公開されている。
関連論文リスト
- Architecture and evaluation protocol for transformer-based visual object tracking in UAV applications [0.0]
既存のビジュアルトラッカーは複雑なシナリオでは堅牢性に欠けるか、リアルタイムの組込み使用には計算的に要求されすぎている。
変換器ベースのトラッカーと拡張カルマンフィルタを組み合わせたモジュール非同期追跡アーキテクチャ(MATA)を提案する。
本稿では,ハードウェアに依存しない組込み指向評価プロトコルとNT2Fと呼ばれる新しいメトリクスを導入し,トラッカーが外部の助けなしにトラッキングシーケンスをどれだけ長く維持できるかを定量化する。
論文 参考訳(メタデータ) (2026-03-04T10:12:12Z) - A Tri-Modal Dataset and a Baseline System for Tracking Unmanned Aerial Vehicles [74.8162337823142]
MM-UAVはMulti-Modal UAV Trackingの最初の大規模ベンチマークである。
データセットは30以上の挑戦的なシナリオにまたがっており、1,321の同期マルチモーダルシーケンスと280万以上の注釈付きフレームがある。
データセットを伴って、我々は新しいマルチモーダルマルチUAV追跡フレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-23T08:42:17Z) - Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。
既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。
本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文 参考訳(メタデータ) (2025-08-03T12:06:47Z) - TrackVLA: Embodied Visual Tracking in the Wild [34.03604806748204]
Embodied visual trackingは、Embodied AIの基本的なスキルであり、エージェントは、自我中心の視覚のみを使用して、動的環境における特定のターゲットに従うことができる。
既存のアプローチは通常、認識と計画のモジュラー分離を通じてこの問題に対処する。
本研究では,物体認識と軌道計画の相乗効果を学習する視覚・言語・行動モデルであるTrackVLAを提案する。
論文 参考訳(メタデータ) (2025-05-29T07:28:09Z) - MUST: The First Dataset and Unified Framework for Multispectral UAV Single Object Tracking [17.96400810834486]
第1回大規模マルチスペクトルUAVシングルオブジェクト追跡データセット(MUST)について紹介する。
MUSTには、様々な環境と課題にまたがる250のビデオシーケンスが含まれている。
また,スペクトルプロンプトからのスペクトル,空間,時間的特徴をエンコードする新しい追跡フレームワークUNTrackを提案する。
論文 参考訳(メタデータ) (2025-03-22T08:47:28Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - Learning Motion Blur Robust Vision Transformers for Real-Time UAV Tracking [14.382072224997074]
無人航空機(UAV)の追跡は、監視、捜索救助、自律航法といった用途に欠かせない。
UAVとターゲットの高速移動は、リアルタイム処理要求や激しい動きのぼかしなど、ユニークな課題をもたらす。
本稿では,リアルタイムなUAVトラッキングのために,Transformerブロックを動的に終了する適応型計算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T14:10:04Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。