論文の概要: Follow Anything: Open-set detection, tracking, and following in
real-time
- arxiv url: http://arxiv.org/abs/2308.05737v1
- Date: Thu, 10 Aug 2023 17:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 11:30:05.622077
- Title: Follow Anything: Open-set detection, tracking, and following in
real-time
- Title(参考訳): Follow Anything: リアルタイムでオープンセットの検出、追跡、追跡
- Authors: Alaa Maalouf and Ninad Jadhav and Krishna Murthy Jatavallabhula and
Makram Chahine and Daniel M.Vogt and Robert J. Wood and Antonio Torralba and
Daniela Rus
- Abstract要約: 我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。
私たちのアプローチは、何でも従う"(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。
FAnは軽量(6~8GB)グラフィックカードでラップトップにデプロイでき、毎秒6~20フレームのスループットを実現する。
- 参考スコア(独自算出の注目度): 69.4093910401823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tracking and following objects of interest is critical to several robotics
use cases, ranging from industrial automation to logistics and warehousing, to
healthcare and security. In this paper, we present a robotic system to detect,
track, and follow any object in real-time. Our approach, dubbed ``follow
anything'' (FAn), is an open-vocabulary and multimodal model -- it is not
restricted to concepts seen at training time and can be applied to novel
classes at inference time using text, images, or click queries. Leveraging rich
visual descriptors from large-scale pre-trained models (foundation models), FAn
can detect and segment objects by matching multimodal queries (text, images,
clicks) against an input image sequence. These detected and segmented objects
are tracked across image frames, all while accounting for occlusion and object
re-emergence. We demonstrate FAn on a real-world robotic system (a micro aerial
vehicle) and report its ability to seamlessly follow the objects of interest in
a real-time control loop. FAn can be deployed on a laptop with a lightweight
(6-8 GB) graphics card, achieving a throughput of 6-20 frames per second. To
enable rapid adoption, deployment, and extensibility, we open-source all our
code on our project webpage at https://github.com/alaamaalouf/FollowAnything .
We also encourage the reader the watch our 5-minutes explainer video in this
https://www.youtube.com/watch?v=6Mgt3EPytrw .
- Abstract(参考訳): 産業自動化から物流や倉庫、医療やセキュリティまで、いくつかのロボティクスのユースケースにおいて、関心事の追跡と追跡は重要である。
本稿では,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。
私たちのアプローチは 'follow anything'' (FAn) と呼ばれ、オープンな語彙とマルチモーダルモデルです -- トレーニング時に見られる概念に制限されず、テキスト、イメージ、クェリを使用して推論時に新しいクラスに適用できます。
大規模な事前訓練モデル(基礎モデル)からリッチなビジュアル記述子を活用することで、FAnは入力画像シーケンスに対してマルチモーダルクエリ(テキスト、画像、クリック)をマッチングすることでオブジェクトを検出し、セグメント化することができる。
これらの検出およびセグメンテーションされたオブジェクトは、画像フレーム全体で追跡される。
我々は、実世界のロボットシステム(マイクロエアロ車両)でFAnを実証し、リアルタイム制御ループで関心のある物体をシームレスに追跡する能力を報告した。
ファンは軽量(6-8gb)のグラフィックカードでラップトップに展開でき、毎秒6〜20フレームのスループットを実現している。
迅速な採用、デプロイメント、拡張性を実現するため、プロジェクトのWebページにあるすべてのコードをhttps://github.com/alaamaalouf/FollowAnything.comでオープンソース化しました。
また読者には、このhttps://www.youtube.com/watch.com で5分間の解説ビデオをご覧ください。
v=6mgt3epytrw。
関連論文リスト
- Enhancing In-vehicle Multiple Object Tracking Systems with Embeddable Ising Machines [0.10485739694839666]
フレキシブルな割り当て機能を備えた車内複数物体追跡システムについて述べる。
このシステムは、シミュレート・バイフルケーション(simulated bifurcation)と呼ばれる量子インスパイアされたアルゴリズムに基づく埋め込み可能なIsingマシンに依存している。
車両搭載型コンピューティングプラットフォームを用いて,拡張機能を備えたリアルタイムシステムワイドスループット(平均23フレーム/秒)を実演する。
論文 参考訳(メタデータ) (2024-10-18T00:18:27Z) - VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Track Anything Rapter(TAR) [0.0]
Track Anything Rapter (TAR)は、ユーザが提供するマルチモーダルクエリに基づいて、関心のあるオブジェクトを検出し、セグメンテーションし、追跡するように設計されている。
TARは、DINO、CLIP、SAMといった最先端の事前訓練モデルを使用して、クエリされたオブジェクトの相対的なポーズを推定する。
本稿では,これらの基礎モデルとカスタム高レベル制御アルゴリズムの統合によって,高度に安定かつ高精度なトラッキングシステムを実現する方法を紹介する。
論文 参考訳(メタデータ) (2024-05-19T19:51:41Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Zero-Shot Open-Vocabulary Tracking with Large Pre-Trained Models [28.304047711166056]
大規模事前訓練モデルでは、野生の2次元静的画像中の物体の検出とセグメンテーションの進歩が期待できる。
このような大規模なトレーニング済みの静的イメージモデルを,オープン語彙のビデオトラッキングに再利用することは可能だろうか?
本稿では,オープンボキャブラリ検出器,セグメンタ,高密度光流推定器を,任意のカテゴリの物体を2Dビデオで追跡・セグメント化するモデルに再構成する。
論文 参考訳(メタデータ) (2023-10-10T20:25:30Z) - RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation [36.43143326197769]
Track-Any-Point (TAP) モデルは、デモ中の関連する動きを分離し、低レベルのコントローラをパラメータ化して、シーン構成の変化をまたいでこの動きを再現する。
この結果は,形状整合,積み重ね,さらには接着や物体の付着といった完全な経路追従といった複雑な物体配置タスクを解くことのできるロバストなロボットポリシーで示される。
論文 参考訳(メタデータ) (2023-08-30T11:57:04Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - MVLidarNet: Real-Time Multi-Class Scene Understanding for Autonomous
Driving Using Multiple Views [60.538802124885414]
マルチビューLidarNet(MVLidarNet)は,多層物体検出とドライビング空間分割のための2段階のディープニューラルネットワークである。
MVLidarNetは、単一のLiDARスキャンを入力として、乾燥可能な空間を同時に決定しながら、オブジェクトを検出し、分類することができる。
我々は、KITTIとはるかに大きな内部データセットの両方で結果を示し、その方法が桁違いにスケールできることを実証する。
論文 参考訳(メタデータ) (2020-06-09T21:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。