論文の概要: CosFly-Track: A Large-Scale Multi-Modal Dataset for UAV Visual Tracking via Multi-Constraint Trajectory Optimization
- arxiv url: http://arxiv.org/abs/2605.17776v2
- Date: Wed, 20 May 2026 07:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.308821
- Title: CosFly-Track: A Large-Scale Multi-Modal Dataset for UAV Visual Tracking via Multi-Constraint Trajectory Optimization
- Title(参考訳): CosFly-Track:マルチ制約軌道最適化によるUAV視覚追跡のための大規模マルチモードデータセット
- Authors: Xiangyue Wang, Hanxuan Chen, Songsheng Cheng, Ruilong Ren, Jie Zheng, Shuai Yuan, Tianle Zeng, Hanzhong Guo, Kangli Wang, Ji Pei,
- Abstract要約: 都市環境におけるUAV視覚追跡のための大規模マルチモーダルデータセットであるCosFlyTrackを紹介する。
このデータセットは6000本の歩行者経路から生成された約12,000人の専門家と摂動型UAV軌道を提供する。
CosFlyTrackは追跡性能を78.3から95.6%に改善し、ゼロショットベースラインよりも53から69ポイント向上した。
- 参考スコア(独自算出の注目度): 5.936588226093352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent aerial vision-language navigation (VLN) datasets have grown rapidly, but they primarily address goal-oriented navigation to static destinations, leaving UAV visual tracking -- continuously following a moving target while maintaining visibility -- largely without dedicated training data. We introduce CosFlyTrack, a large-scale multi-modal dataset and scalable generation pipeline for UAV visual tracking in urban environments. The dataset provides approximately 12,000 expert and perturbed UAV trajectories generated from 6,000 pedestrian paths, comprising 2.4 million timesteps (approximately 334 hours) with seven aligned data channels: RGB, metric depth, semantic segmentation, six-degree-of-freedom drone pose, target state with visibility flag, bilingual (Chinese-English) instructions, and trajectory-pair metadata. To generate high-quality expert trajectories, we develop MuCO, a multi-constraint optimizer that plans directly in continuous three-dimensional space with BVH-accelerated collision and visibility queries, jointly enforcing target visibility, viewpoint quality, collision avoidance, smoothness, and kinematic feasibility, avoiding the discretization artifacts and post-hoc smoothing of grid-based planners. Fine-tuning experiments on seven vision-language models show that CosFlyTrack improves tracking performance to 78.3 to 95.6 percent SR@1 meter, a 53 to 69 percentage point gain over zero-shot baselines, supporting the dataset as a training resource for dynamic target-following agents. The dataset is publicly available at https://huggingface.co/datasets/AutelRobotics/CosFly; evaluation scripts and pre-trained checkpoints are hosted at https://huggingface.co/AutelRobotics/CosFly-Track.
- Abstract(参考訳): 最近の空中視覚言語ナビゲーション(VLN)データセットは急速に成長しているが、主に静的な目的地への目標指向ナビゲーションに対処し、UAV視覚追跡は、主に専用のトレーニングデータなしで、移動目標を継続的に追尾し、可視性を維持している。
都市環境におけるUAV視覚追跡のための大規模マルチモーダルデータセットとスケーラブルな生成パイプラインであるCosFlyTrackを紹介した。
RGB、メートル法深度、セマンティックセグメンテーション(セマンティックセグメンテーション)、6自由度ドローンポーズ、目標状態、可視性フラグ、バイリンガル(中国語)命令、およびトラジェクティブ・ペアメタデータの7つのアラインなデータチャネルを持つ2.4万のタイムステップ(約334時間)を含む、6000の歩行者パスから生成される約12,000の専門家と摂動型UAVトラジェクトリを提供する。
高品質な専門家軌道を生成するために,BVH加速衝突および可視性クエリを連続した3次元空間で直接計画し,目標視認性,視点品質,衝突回避性,滑らかさ,運動性を実現するマルチ制約最適化器 MuCO を開発した。
7つの視覚言語モデルの微調整実験によると、CosFlyTrackは追跡性能を78.3から95.6%に改善し、ゼロショットベースラインよりも53から69ポイント向上し、ダイナミックなターゲット追従エージェントのトレーニングリソースとしてデータセットをサポートする。
データセットはhttps://huggingface.co/datasets/AutelRobotics/CosFlyで公開されており、評価スクリプトと事前トレーニングされたチェックポイントはhttps://huggingface.co/AutelRobotics/CosFly-Trackでホストされている。
関連論文リスト
- Track A*: Fast Visibility-Aware Trajectory Planning for Active Target Tracking [1.8297494098768168]
我々は、視認可能な目標追跡のためのオフライン検索ベースの軌道プランナーであるTrack A star(TA star)を提示する。
TA星は、層状非巡回グラフ(D)探索と、境界体積に対するクロスタイム障害物距離キャッシング、層当たりのビームプルーニング、マルチレイ可視性評価器の3つのエンジニアリング最適化を組み合わせた。
実験の結果、計算コストのごく一部で、頑健で、ほぼベースラインに近い可視性を示す。
論文 参考訳(メタデータ) (2026-05-06T18:09:15Z) - UAV-Track VLA: Embodied Aerial Tracking via Vision-Language-Action Models [14.433739259355406]
複雑な現実世界のタスクを実行する無人航空機(UAV)にとって、身体的視線追跡は不可欠である。
このような環境でのマルチモーダルトラッキングをベンチマークするために,890Kのフレーム,176のタスク,85の多様なオブジェクトを含む大規模データセットを構築した。
本稿では,$_0.5$アーキテクチャ上に構築した改良型VLA追跡モデルUAV-Track VLAを提案する。
論文 参考訳(メタデータ) (2026-04-02T16:33:38Z) - MUST: The First Dataset and Unified Framework for Multispectral UAV Single Object Tracking [17.96400810834486]
第1回大規模マルチスペクトルUAVシングルオブジェクト追跡データセット(MUST)について紹介する。
MUSTには、様々な環境と課題にまたがる250のビデオシーケンスが含まれている。
また,スペクトルプロンプトからのスペクトル,空間,時間的特徴をエンコードする新しい追跡フレームワークUNTrackを提案する。
論文 参考訳(メタデータ) (2025-03-22T08:47:28Z) - UAVD4L: A Large-Scale Dataset for UAV 6-DoF Localization [14.87295056434887]
局所化のための大規模6-DoF UAVデータセット(UAVD4L)を提案する。
オフライン合成データ生成とオンラインビジュアルローカライゼーションからなる2段階6-DoFローカライゼーションパイプライン(UAVLoc)を開発した。
新しいデータセットの結果は,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2024-01-11T15:19:21Z) - BEVTrack: A Simple and Strong Baseline for 3D Single Object Tracking in Bird's-Eye View [54.48052449493636]
3Dシングルオブジェクトトラッキング(SOT)はコンピュータビジョンの基本課題であり、自律運転のようなアプリケーションにおいて重要な役割を果たす。
BEVTrackは、シンプルだが効果的な動きに基づくトラッキング手法である。
我々は,BEVTrackが200FPSで動作しながら最先端の結果を達成し,リアルタイム適用性を実現していることを示す。
論文 参考訳(メタデータ) (2023-09-05T12:42:26Z) - Large Scale Real-World Multi-Person Tracking [68.27438015329807]
本稿では,新しい大規模多人数追跡データセットであるtexttPersonPath22を提案する。
MOT17、HiEve、MOT20などの高品質なマルチオブジェクト追跡データセットよりも桁違いに大きい。
論文 参考訳(メタデータ) (2022-11-03T23:03:13Z) - Detection, Tracking, and Counting Meets Drones in Crowds: A Benchmark [97.07865343576361]
DroneCrowdという新しいドローンキャプチャ型大規模データセットによるベンチマークを構築した。
私たちは4800万人の頭といくつかのビデオレベルの属性を持つ20,800人のトラジェクタに注釈を付けます。
我々は、密集した群衆の物体の検出、追跡、数え上げを行うための強力なベースラインとして、Space-Time Neighbor-Aware Network (STNNet)を設計する。
論文 参考訳(メタデータ) (2021-05-06T04:46:14Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。