論文の概要: TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training
Model
- arxiv url: http://arxiv.org/abs/2006.05683v1
- Date: Wed, 10 Jun 2020 06:45:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 05:51:58.886986
- Title: TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training
Model
- Title(参考訳): tubetk: ワンステップトレーニングモデルにおけるマルチオブジェクト追跡のためのチューブの採用
- Authors: Bo Pang, Yizhuo Li, Yifan Zhang, Muchen Li, Cewu Lu
- Abstract要約: マルチオブジェクトトラッキングは、長い間研究されてきた基本的な視覚問題である。
Tracking by Detection (TBD)の成功にもかかわらず、この2段階の手法はエンドツーエンドでトレーニングするには複雑すぎる。
本稿では,短いビデオクリップ中の物体の時間空間位置を示すために,バウンディングチューブを導入することで,一段階のトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。
- 参考スコア(独自算出の注目度): 51.14840210957289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-object tracking is a fundamental vision problem that has been studied
for a long time. As deep learning brings excellent performances to object
detection algorithms, Tracking by Detection (TBD) has become the mainstream
tracking framework. Despite the success of TBD, this two-step method is too
complicated to train in an end-to-end manner and induces many challenges as
well, such as insufficient exploration of video spatial-temporal information,
vulnerability when facing object occlusion, and excessive reliance on detection
results. To address these challenges, we propose a concise end-to-end model
TubeTK which only needs one step training by introducing the ``bounding-tube"
to indicate temporal-spatial locations of objects in a short video clip. TubeTK
provides a novel direction of multi-object tracking, and we demonstrate its
potential to solve the above challenges without bells and whistles. We analyze
the performance of TubeTK on several MOT benchmarks and provide empirical
evidence to show that TubeTK has the ability to overcome occlusions to some
extent without any ancillary technologies like Re-ID. Compared with other
methods that adopt private detection results, our one-stage end-to-end model
achieves state-of-the-art performances even if it adopts no ready-made
detection results. We hope that the proposed TubeTK model can serve as a simple
but strong alternative for video-based MOT task. The code and models are
available at https://github.com/BoPang1996/TubeTK.
- Abstract(参考訳): マルチオブジェクト追跡は、長い間研究されてきた基本的なビジョン問題である。
ディープラーニングはオブジェクト検出アルゴリズムに優れたパフォーマンスをもたらすため、トラッキングによる検出(TBD)が主流のトラッキングフレームワークとなっている。
TBDの成功にもかかわらず、この2段階の手法はエンドツーエンドで訓練するには複雑すぎるため、ビデオ時空間情報の不十分な探索、物体閉塞時の脆弱性、検出結果への過度な依存など、多くの課題も引き起こす。
これらの課題に対処するために、短いビデオクリップでオブジェクトの時間空間位置を示す「bounding-tube」を導入することで、ワンステップのトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。
TubeTKは,複数物体追跡の新しい方向を提供するとともに,ベルやホイッスルを使わずに上記の課題を解決する可能性を実証する。
我々は,複数のMOTベンチマーク上でのTubTKの性能を分析し,Re-IDのような補助技術がなくても,TubTKがある程度の閉塞を克服できることを示す実証的証拠を提供する。
プライベート検出結果を採用する他の手法と比較して,我々の一段階のエンドツーエンドモデルでは,既製の検出結果が適用されていない場合でも,最先端のパフォーマンスが達成される。
提案するTubeTKモデルは,ビデオベースのMOTタスクに対して,シンプルだが強力な代替手段となることを期待する。
コードとモデルはhttps://github.com/BoPang1996/TubeTKで入手できる。
関連論文リスト
- VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - MAML MOT: Multiple Object Tracking based on Meta-Learning [7.892321926673001]
MAML MOTは、マルチオブジェクト追跡のためのメタラーニングベースのトレーニングアプローチである。
マルチオブジェクト追跡のためのメタラーニングに基づくトレーニング手法であるMAML MOTを紹介する。
論文 参考訳(メタデータ) (2024-05-12T12:38:40Z) - Bridging Images and Videos: A Simple Learning Framework for Large
Vocabulary Video Object Detection [110.08925274049409]
検出と追跡を学習するために、利用可能なすべてのトレーニングデータを最大限に活用する、シンプルだが効果的な学習フレームワークを提案する。
様々な大語彙トラッカーを一貫した改良が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T10:33:03Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - QDTrack: Quasi-Dense Similarity Learning for Appearance-Only Multiple
Object Tracking [73.52284039530261]
本稿では,コントラスト学習のために,画像上に数百のオブジェクト領域を密集した擬似Dense類似性学習を提案する。
得られた特徴空間は、オブジェクトアソシエーションの推論時間において、単純な近接探索を許容する。
我々の類似性学習方式は,ビデオデータに限らず,静的入力でも有効なインスタンス類似性を学ぶことができることを示す。
論文 参考訳(メタデータ) (2022-10-12T15:47:36Z) - Multimodal Channel-Mixing: Channel and Spatial Masked AutoEncoder on
Facial Action Unit Detection [12.509298933267225]
本稿では,MCM(Multimodal Channel-Mixing)と呼ばれる新しいマルチモーダル再構成ネットワークを提案する。
このアプローチは、Channel-Mixingモジュールを統合して、5つのうち2つをランダムにドロップする、初期の融合設定に従っている。
このモジュールはチャネルの冗長性を低下させるだけでなく、マルチモーダル学習と再構成機能も促進し、ロバストな特徴学習をもたらす。
論文 参考訳(メタデータ) (2022-09-25T15:18:56Z) - Semi-TCL: Semi-Supervised Track Contrastive Representation Learning [40.31083437957288]
我々は、外観埋め込みを学習するために、新しいインスタンス・ツー・トラックマッチングの目的を設計する。
候補検出とトラッカーに永続化されたトラックの埋め込みを比較する。
我々は,この学習目標を,構成的損失の精神に倣って統一的な形で実施する。
論文 参考訳(メタデータ) (2021-07-06T05:23:30Z) - DEFT: Detection Embeddings for Tracking [3.326320568999945]
我々は,DEFT と呼ばれる効率的な関節検出・追跡モデルを提案する。
提案手法は,外見に基づくオブジェクトマッチングネットワークと,下層のオブジェクト検出ネットワークとの協調学習に依存している。
DEFTは2Dオンライントラッキングリーダーボードのトップメソッドに匹敵する精度とスピードを持っている。
論文 参考訳(メタデータ) (2021-02-03T20:00:44Z) - Probabilistic Tracklet Scoring and Inpainting for Multiple Object
Tracking [83.75789829291475]
本稿では,トラックレット提案の確率的自己回帰運動モデルを提案する。
これは、我々のモデルを訓練して、自然のトラックレットの基盤となる分布を学習することで達成される。
我々の実験は、挑戦的なシーケンスにおける物体の追跡におけるアプローチの優位性を実証している。
論文 参考訳(メタデータ) (2020-12-03T23:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。