論文の概要: Tracking Anything in High Quality
- arxiv url: http://arxiv.org/abs/2307.13974v1
- Date: Wed, 26 Jul 2023 06:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 13:28:51.218086
- Title: Tracking Anything in High Quality
- Title(参考訳): 高品質なものを追跡する
- Authors: Jiawen Zhu, Zhenyu Chen, Zeqi Hao, Shijie Chang, Lu Zhang, Dong Wang,
Huchuan Lu, Bin Luo, Jun-Yan He, Jin-Peng Lan, Hanyuan Chen, Chenyang Li
- Abstract要約: HQTrackは高品質なビデオ追跡のためのフレームワークだ。
ビデオマルチオブジェクトセグメンタ(VMOS)とマスクリファインダ(MR)で構成されている。
- 参考スコア(独自算出の注目度): 63.63653185865726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual object tracking is a fundamental video task in computer vision.
Recently, the notably increasing power of perception algorithms allows the
unification of single/multiobject and box/mask-based tracking. Among them, the
Segment Anything Model (SAM) attracts much attention. In this report, we
propose HQTrack, a framework for High Quality Tracking anything in videos.
HQTrack mainly consists of a video multi-object segmenter (VMOS) and a mask
refiner (MR). Given the object to be tracked in the initial frame of a video,
VMOS propagates the object masks to the current frame. The mask results at this
stage are not accurate enough since VMOS is trained on several closeset video
object segmentation (VOS) datasets, which has limited ability to generalize to
complex and corner scenes. To further improve the quality of tracking masks, a
pretrained MR model is employed to refine the tracking results. As a compelling
testament to the effectiveness of our paradigm, without employing any tricks
such as test-time data augmentations and model ensemble, HQTrack ranks the 2nd
place in the Visual Object Tracking and Segmentation (VOTS2023) challenge. Code
and models are available at https://github.com/jiawen-zhu/HQTrack.
- Abstract(参考訳): ビジュアルオブジェクトトラッキングはコンピュータビジョンにおける基本的なビデオタスクである。
近年、認識アルゴリズムの顕著なパワー向上により、シングル/マルチオブジェクトとボックス/マスクベースのトラッキングの統合が可能になった。
その中でもSegment Anything Model (SAM) が注目されている。
本稿では,ビデオの高品質なトラッキングのためのフレームワークであるhqtrackを提案する。
HQTrackは主にビデオマルチオブジェクトセグメンタ(VMOS)とマスクリファインダ(MR)で構成されている。
ビデオの最初のフレームで追跡するオブジェクトが与えられた場合、VMOSはオブジェクトマスクを現在のフレームに伝搬する。
VMOSは複数のクローズセットビデオオブジェクトセグメンテーション(VOS)データセットでトレーニングされており、複雑なシーンやコーナーシーンに一般化する能力に制限があるため、この段階でのマスクの結果は十分に正確ではない。
トラッキングマスクの品質をさらに向上するため、追跡結果を改善するために事前訓練されたMRモデルが採用された。
テスト時のデータ拡張やモデルアンサンブルといったトリックを使わずに、私たちのパラダイムの有効性を証明してくれるものとして、HQTrackは、ビジュアルオブジェクト追跡とセグメンテーション(VOTS2023)の2位にランク付けします。
コードとモデルはhttps://github.com/jiawen-zhu/hqtrackで入手できる。
関連論文リスト
- Tracking Reflected Objects: A Benchmark [12.770787846444406]
我々は、反射オブジェクトのトラッキングに特化したベンチマークであるTROを紹介します。
TROは、約70,000フレームの200のシーケンスを含み、それぞれにバウンディングボックスを慎重にアノテートする。
より強力なベースラインを提供するために,階層的特徴を用いて性能を向上させる新しいトラッカーであるHiP-HaTrackを提案する。
論文 参考訳(メタデータ) (2024-07-07T02:22:45Z) - TeamTrack: A Dataset for Multi-Sport Multi-Object Tracking in Full-pitch Videos [11.35998213546475]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な課題である。
スポーツにおけるMOTに特化したベンチマークデータセットであるTeamTrackを紹介する。
TeamTrackは、サッカー、バスケットボール、ハンドボールなど、さまざまなスポーツのフルピッチビデオデータを集めたコレクションだ。
論文 参考訳(メタデータ) (2024-04-22T04:33:40Z) - Tracking with Human-Intent Reasoning [64.69229729784008]
この作業では、新しいトラッキングタスクであるインストラクショントラッキングを提案している。
ビデオフレーム内で自動的にトラッキングを実行するようにトラッカーに要求する暗黙の追跡命令を提供する。
TrackGPTは複雑な推論ベースの追跡を行うことができる。
論文 参考訳(メタデータ) (2023-12-29T03:22:18Z) - DIVOTrack: A Novel Dataset and Baseline Method for Cross-View
Multi-Object Tracking in DIVerse Open Scenes [74.64897845999677]
歩行者が密集したDIVerse Openのシーンを対象とした,新しいクロスビュー多目的追跡データセットを提案する。
私たちのDIVOTrackには15の異なるシナリオと953のクロスビュートラックがあります。
さらに,クロスモット(CrossMOT)という統合型共同検出・クロスビュートラッキングフレームワークを用いた新しいベースラインクロスビュートラッキング手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T14:10:42Z) - Simple Cues Lead to a Strong Multi-Object Tracker [3.7189423451031356]
マルチオブジェクト追跡のための新しいタイプのトラッキング・バイ・ディテクト(TbD)を提案する。
単純な動作モデルと外観特徴を組み合わせることで,強い追跡結果が得られることを示す。
私たちのトラッカーは、MOT17、MOT20、BDD100k、DanceTrackの4つの公開データセットに一般化され、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-06-09T17:55:51Z) - Robust Visual Tracking by Segmentation [103.87369380021441]
対象範囲を推定することは、視覚的物体追跡において根本的な課題となる。
高精度なセグメンテーションマスクを生成するセグメンテーション中心のトラッキングパイプラインを提案する。
我々のトラッカーは、シーンのターゲットを背景コンテンツと明確に区別するターゲット表現をよりよく学習することができる。
論文 参考訳(メタデータ) (2022-03-21T17:59:19Z) - Is First Person Vision Challenging for Object Tracking? [32.64792520537041]
ファースト・パーソナリティ・ビジョン(FPV)における物体追跡に関する最初の体系的研究について述べる。
本研究は,近年の視覚トラッカーとベースライン型FPVトラッカーの性能を,異なる側面と新たな性能指標を考慮して広範囲に解析する。
以上の結果から,FPVにおける物体追跡は困難であることが示唆された。
論文 参考訳(メタデータ) (2021-08-31T08:06:01Z) - TrackFormer: Multi-Object Tracking with Transformers [92.25832593088421]
TrackFormerはエンコーダデコーダトランスフォーマーアーキテクチャに基づくエンドツーエンドのマルチオブジェクトトラッキングおよびセグメンテーションモデルです。
新しいトラッククエリはDETRオブジェクト検出器によって生成され、時間とともに対応するオブジェクトの位置を埋め込む。
trackformerは新しいトラッキング・バイ・アテンションパラダイムでフレーム間のシームレスなデータ関連付けを実現する。
論文 参考訳(メタデータ) (2021-01-07T18:59:29Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。