論文の概要: Track Anything Rapter(TAR)
- arxiv url: http://arxiv.org/abs/2405.11655v1
- Date: Sun, 19 May 2024 19:51:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 14:53:04.991286
- Title: Track Anything Rapter(TAR)
- Title(参考訳): Track Anything Rapter (TAR)
- Authors: Tharun V. Puthanveettil, Fnu Obaid ur Rahman,
- Abstract要約: Track Anything Raptor (TAR)は、ユーザが提供するマルチモーダルクエリに基づいて、関心のあるオブジェクトを検出し、セグメンテーションし、追跡するように設計されている。
TARは、DINO、CLIP、SAMといった最先端の事前訓練モデルを使用して、クエリされたオブジェクトの相対的なポーズを推定する。
本稿では,これらの基礎モデルとカスタム高レベル制御アルゴリズムの統合によって,高度に安定かつ高精度なトラッキングシステムを実現する方法を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object tracking is a fundamental task in computer vision with broad practical applications across various domains, including traffic monitoring, robotics, and autonomous vehicle tracking. In this project, we aim to develop a sophisticated aerial vehicle system known as Track Anything Raptor (TAR), designed to detect, segment, and track objects of interest based on user-provided multimodal queries, such as text, images, and clicks. TAR utilizes cutting-edge pre-trained models like DINO, CLIP, and SAM to estimate the relative pose of the queried object. The tracking problem is approached as a Visual Servoing task, enabling the UAV to consistently focus on the object through advanced motion planning and control algorithms. We showcase how the integration of these foundational models with a custom high-level control algorithm results in a highly stable and precise tracking system deployed on a custom-built PX4 Autopilot-enabled Voxl2 M500 drone. To validate the tracking algorithm's performance, we compare it against Vicon-based ground truth. Additionally, we evaluate the reliability of the foundational models in aiding tracking in scenarios involving occlusions. Finally, we test and validate the model's ability to work seamlessly with multiple modalities, such as click, bounding box, and image templates.
- Abstract(参考訳): 物体追跡はコンピュータビジョンにおける基本的なタスクであり、交通監視、ロボット工学、自律走行車追跡など、様々な領域にまたがる幅広い実用的応用がある。
本研究の目的は,テキスト,画像,クリックなどのユーザが提供するマルチモーダルクエリに基づいて,関心のあるオブジェクトを検出し,セグメンテーションし,追跡することを目的とした,TAR(Track Anything Raptor)と呼ばれる高度な航空車両システムを開発することである。
TARは、DINO、CLIP、SAMといった最先端の事前訓練モデルを使用して、クエリされたオブジェクトの相対的なポーズを推定する。
トラッキング問題はVisual Servoingタスクとしてアプローチされており、UAVは高度なモーションプランニングと制御アルゴリズムを通じてオブジェクトに一貫してフォーカスすることができる。
我々は、これらの基礎モデルとカスタムの高レベル制御アルゴリズムの統合によって、カスタムビルドされたPX4 Autopilot対応のVoxl2 M500ドローンに、高度に安定して正確なトラッキングシステムを構築する方法を紹介する。
追従アルゴリズムの性能を検証するために,Vicon ベースの基底真理と比較した。
さらに,オクルージョンを含むシナリオにおける追跡支援における基礎モデルの信頼性を評価する。
最後に、クリック、バウンディングボックス、イメージテンプレートなど、複数のモードでシームレスに機能するモデルの能力をテストし、検証する。
関連論文リスト
- OmniTracker: Unifying Object Tracking by Tracking-with-Detection [119.51012668709502]
OmniTrackerは、完全に共有されたネットワークアーキテクチャ、モデルウェイト、推論パイプラインですべてのトラッキングタスクを解決するために提供されている。
LaSOT、TrackingNet、DAVIS16-17、MOT17、MOTS20、YTVIS19を含む7つの追跡データセットの実験は、OmniTrackerがタスク固有の追跡モデルと統合された追跡モデルの両方よりも、オンパーまたはそれ以上の結果を達成することを示した。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Scalable and Real-time Multi-Camera Vehicle Detection,
Re-Identification, and Tracking [58.95210121654722]
理想化されたビデオストリームやキュレートされたビデオストリームの代わりに,リアルタイムで低解像度のCCTVを処理する,リアルタイムな都市規模のマルチカメラ車両追跡システムを提案する。
私たちの手法は、公共のリーダーボードで上位5人のパフォーマーにランク付けされています。
論文 参考訳(メタデータ) (2022-04-15T12:47:01Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - Exploring Simple 3D Multi-Object Tracking for Autonomous Driving [10.921208239968827]
LiDARポイントクラウドにおける3Dマルチオブジェクトトラッキングは、自動運転車にとって重要な要素である。
既存の手法は、主にトラッキング・バイ・検出パイプラインに基づいており、検出アソシエーションのマッチングステップが必然的に必要である。
我々は,手作りの追跡パラダイムをシンプルにするために,原点雲からの共同検出と追跡のためのエンドツーエンドのトレーニング可能なモデルを提案する。
論文 参考訳(メタデータ) (2021-08-23T17:59:22Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Model-free Vehicle Tracking and State Estimation in Point Cloud
Sequences [17.351635242415703]
モデルフリーの単一オブジェクト追跡(SOT)という、この問題の新しい設定について研究する。
SOTは第1フレームのオブジェクト状態を入力とし、その後のフレームにおける状態推定と追跡を共同で解決する。
そこで我々は,点群登録,車両形状,動作優先度に基づく最適化アルゴリズムSOTrackerを提案する。
論文 参考訳(メタデータ) (2021-03-10T13:01:26Z) - Probabilistic 3D Multi-Modal, Multi-Object Tracking for Autonomous
Driving [22.693895321632507]
異なる訓練可能なモジュールからなる確率的、マルチモーダル、マルチオブジェクトトラッキングシステムを提案する。
本手法はNuScenes Trackingデータセットの現在の状態を上回っていることを示した。
論文 参考訳(メタデータ) (2020-12-26T15:00:54Z) - Unsupervised Multiple Person Tracking using AutoEncoder-Based Lifted
Multicuts [11.72025865314187]
最小限の視覚的特徴とリフトマルチカットに基づく教師なし多重物体追跡手法を提案する。
提案したアノテーションを使わずにトレーニングされているにもかかわらず,我々のモデルは,歩行者追跡のための挑戦的なMOTベンチマークにおいて,競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2020-02-04T09:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。