論文の概要: Instance-level Visual Active Tracking with Occlusion-Aware Planning
- arxiv url: http://arxiv.org/abs/2604.21453v1
- Date: Thu, 23 Apr 2026 09:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.399916
- Title: Instance-level Visual Active Tracking with Occlusion-Aware Planning
- Title(参考訳): Occlusion-Aware Planning を用いたインスタンスレベルの視覚能動追跡
- Authors: Haowei Sun, Kai Zhou, Hao Gao, Shiteng Zhang, Jinwu Hu, Xutao Wen, Qixiang Ye, Mingkui Tan,
- Abstract要約: Visual Active Tracking (VAT)は、カメラを3D空間でターゲットに追従することを目的としている。
VATは、視覚的に類似したイントラクタからの混乱と、閉塞下での深刻な障害という、現実世界のデプロイメントにおいて2つの重要なボトルネックに直面している。
3つの相補的なモジュールを持つ統一パイプラインであるOA-VATを提案する。
- 参考スコア(独自算出の注目度): 61.982298426203165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Active Tracking (VAT) aims to control cameras to follow a target in 3D space, which is critical for applications like drone navigation and security surveillance. However, it faces two key bottlenecks in real-world deployment: confusion from visually similar distractors caused by insufficient instance-level discrimination and severe failure under occlusions due to the absence of active planning. To address these, we propose OA-VAT, a unified pipeline with three complementary modules. First, a training-free Instance-Aware Offline Prototype Initialization aggregates multi-view augmented features via DINOv3 to construct discriminative instance prototypes, mitigating distractor confusion. Second, an Online Prototype Enhancement Tracker enhances prototypes online and integrates a confidence-aware Kalman filter for stable tracking under appearance and motion changes. Third, an Occlusion-Aware Trajectory Planner, trained on our new Planning-20k dataset, uses conditional diffusion to generate obstacle-avoiding paths for occlusion recovery. Experiments demonstrate OA-VAT achieves 0.93 average SR on UnrealCV (+2.2% vs. SOTA TrackVLA), 90.8% average CAR on real-world datasets (+12.1% vs. SOTA GC-VAT), and 81.6% TSR on a DJI Tello drone. Running at 35 FPS on an RTX 3090, it delivers robust, real-time performance for practical deployment.
- Abstract(参考訳): Visual Active Tracking(VAT)は、ドローンナビゲーションやセキュリティ監視といったアプリケーションにとって重要な3D空間におけるターゲットを追従するためのカメラの制御を目的としている。
しかし、実際のデプロイメントでは2つの大きなボトルネックに直面している。インスタンスレベルの識別が不十分なことによる視覚的に類似した障害からの混乱と、アクティブプランニングが欠如していることによる排他的障害である。
そこで我々は,3つの相補的なモジュールを持つ統一パイプラインであるOA-VATを提案する。
まず、トレーニング不要のインスタンス対応のオフラインプロトタイプ初期化は、DINOv3を介してマルチビューの拡張機能を集約し、差別的なインスタンスプロトタイプを構築し、混乱を緩和する。
第二に、オンラインプロトタイプエンハンスメントトラッカーは、プロトタイプをオンラインに拡張し、信頼を意識したKalmanフィルタを統合して、外見や動きの変化を安定的に追跡する。
第三に、私たちの新しいプランニング20kデータセットに基づいて訓練されたOcclusion-Aware Trajectory Plannerは、条件拡散を使って閉塞回復のための障害物回避経路を生成する。
OA-VATはUnrealCV(+2.2%対SOTA TrackVLA)で0.93SR、現実世界のデータセットで90.8%(+12.1%対SOTA GC-VAT)、DJI Telloドローンで81.6%TSRを達成した。
RTX 3090上で35 FPSで動作すると、実用的なデプロイメントのために堅牢でリアルタイムなパフォーマンスを提供する。
関連論文リスト
- Fly360: Omnidirectional Obstacle Avoidance within Drone View [23.21774398877285]
無人航空機(UAV)の障害物回避は、空間知性への注目が高まり、注目を集めている。
現在の障害物回避法は主に視野の限られたセンサーに依存しており、UAVのシナリオには適していない。
この制限は、パノラマドローンの完全な視界を持つ全方位障害物回避を探求する動機となる。
論文 参考訳(メタデータ) (2026-03-06T18:59:43Z) - Open-World Drone Active Tracking with Goal-Centered Rewards [62.21394499788672]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。
DATは,世界初となるエア・ツー・グラウンド・トラッキング・ベンチマークである。
また,複雑なシナリオにおけるドローン追跡目標の性能向上を目的としたGC-VATを提案する。
論文 参考訳(メタデータ) (2024-12-01T09:37:46Z) - ODTFormer: Efficient Obstacle Detection and Tracking with Stereo Cameras Based on Transformer [12.58804521609764]
ODTFormerはTransformerベースのモデルで、障害検出と追跡の両方の問題に対処する。
我々は,最先端の障害物追跡モデルに匹敵する精度を報告し,そのコストはごくわずかである。
論文 参考訳(メタデータ) (2024-03-21T17:59:55Z) - BEVTrack: A Simple and Strong Baseline for 3D Single Object Tracking in Bird's-Eye View [54.48052449493636]
3Dシングルオブジェクトトラッキング(SOT)はコンピュータビジョンの基本課題であり、自律運転のようなアプリケーションにおいて重要な役割を果たす。
BEVTrackは、シンプルだが効果的な動きに基づくトラッキング手法である。
我々は,BEVTrackが200FPSで動作しながら最先端の結果を達成し,リアルタイム適用性を実現していることを示す。
論文 参考訳(メタデータ) (2023-09-05T12:42:26Z) - An Effective Motion-Centric Paradigm for 3D Single Object Tracking in
Point Clouds [50.19288542498838]
LiDARポイントクラウド(LiDAR SOT)における3Dシングルオブジェクトトラッキングは、自動運転において重要な役割を果たす。
現在のアプローチはすべて、外観マッチングに基づくシームズパラダイムに従っている。
我々は新たな視点からLiDAR SOTを扱うための動き中心のパラダイムを導入する。
論文 参考訳(メタデータ) (2023-03-21T17:28:44Z) - VISTA: Boosting 3D Object Detection via Dual Cross-VIew SpaTial
Attention [32.44687996180621]
VISTA(Dual Cross-VIew Spatial Attention)を用いて,グローバル空間コンテキストにおける多視点特徴を適応的に融合する手法を提案する。
The proposed VISTA is a novel plug-and-play fusion module, where in the multi-layer perceptron widely adopted in standard attention module is replaced to a convolutional。
提案手法は,全mAPの63.0%,NDSの69.8%をnuScenesベンチマークで達成し,自転車などの安全基準カテゴリーの最大24%を達成している。
論文 参考訳(メタデータ) (2022-03-18T02:34:59Z) - Cascaded Regression Tracking: Towards Online Hard Distractor
Discrimination [202.2562153608092]
本稿では,2段階の逐次回帰トラッカーを提案する。
第1段階では, 容易に同定可能な負の候補を抽出する。
第2段階では、残留するあいまいな硬質試料をダブルチェックするために、離散サンプリングに基づくリッジ回帰を設計する。
論文 参考訳(メタデータ) (2020-06-18T07:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。