論文の概要: BootsTAP: Bootstrapped Training for Tracking-Any-Point
- arxiv url: http://arxiv.org/abs/2402.00847v2
- Date: Thu, 23 May 2024 15:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 11:26:41.644239
- Title: BootsTAP: Bootstrapped Training for Tracking-Any-Point
- Title(参考訳): BootsTAP: トラッキング・アニーポイントのためのブートストラップトレーニング
- Authors: Carl Doersch, Pauline Luc, Yi Yang, Dilara Gokay, Skanda Koppula, Ankush Gupta, Joseph Heyward, Ignacio Rocco, Ross Goroshin, João Carreira, Andrew Zisserman,
- Abstract要約: Tracking-Any-Point (TAP) は、ビデオ中の固体表面上の任意の点を追跡するアルゴリズムとして形式化することができる。
大規模でラベルなし、未修正のリアルワールドデータが、最小限のアーキテクチャ変更でTAPモデルを改善することができることを示す。
我々は,TAP-Vidベンチマークにおける最先端性能が,従来の結果よりも広いマージンで上回っていることを示す。
- 参考スコア(独自算出の注目度): 62.585297341343505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To endow models with greater understanding of physics and motion, it is useful to enable them to perceive how solid surfaces move and deform in real scenes. This can be formalized as Tracking-Any-Point (TAP), which requires the algorithm to track any point on solid surfaces in a video, potentially densely in space and time. Large-scale groundtruth training data for TAP is only available in simulation, which currently has a limited variety of objects and motion. In this work, we demonstrate how large-scale, unlabeled, uncurated real-world data can improve a TAP model with minimal architectural changes, using a selfsupervised student-teacher setup. We demonstrate state-of-the-art performance on the TAP-Vid benchmark surpassing previous results by a wide margin: for example, TAP-Vid-DAVIS performance improves from 61.3% to 67.4%, and TAP-Vid-Kinetics from 57.2% to 62.5%. For visualizations, see our project webpage at https://bootstap.github.io/
- Abstract(参考訳): 物理や運動をより深く理解したモデルを実現するためには、実際の場面で固体表面がどう動いたり変形したかを理解することが有用である。
これはTracking-Any-Point (TAP) として定式化することができる。
TAPの大規模な基礎的トレーニングデータはシミュレーションでのみ利用可能であり、現在は限られた種類の物体や動きを持っている。
本研究では,大規模でラベルなし,未計算な実世界のデータが,自己教師型学生-教師設定を用いて,最小限のアーキテクチャ変更でTAPモデルを改善することを実証する。
例えば、TAP-Vid-DAVISのパフォーマンスは61.3%から67.4%に向上し、TAP-Vid-Kineticsは57.2%から62.5%に向上した。
視覚化については、プロジェクトのWebページ(https://bootstap.github.io/)を参照してください。
関連論文リスト
- Keypoint Aware Masked Image Modelling [0.34530027457862006]
KAMIMは16.12%から33.97%に改善され、ImageNet-1Kデータセットで同じ数のエポックでトレーニングされた際には76.78%から77.3%まで微調整精度が向上した。
また,KAMIMを用いて訓練したViT-Bの学習表現を解析し,その行動に関する対照的な学習と同様の行動を示す。
論文 参考訳(メタデータ) (2024-07-18T19:41:46Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Effective Whole-body Pose Estimation with Two-stages Distillation [52.92064408970796]
全体ポーズ推定は、画像内の人体、手、顔、足のキーポイントをローカライズする。
textbfWhole-body textbfPose 推定器の2段階ポーズ textbfDistillation を提案し,その有効性と効率性について検討した。
論文 参考訳(メタデータ) (2023-07-29T03:49:28Z) - HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - OVRL-V2: A simple state-of-art baseline for ImageNav and ObjectNav [62.32806118504701]
我々は、ImageNavタスクとObjectNavタスクの両方で、最先端の結果を達成する単一のニューラルネットワークアーキテクチャを提案する。
このような汎用的な手法は、設計の単純さ、利用可能な計算での正のスケーリング、複数のタスクへの多用途適用の利点を提供する。
論文 参考訳(メタデータ) (2023-03-14T11:15:37Z) - Learning Online for Unified Segmentation and Tracking Models [30.146300294418516]
TrackMLPは、部分的な情報のみから学習するために最適化された新しいメタラーニング手法である。
本モデルでは, 競合モデルに対して, 最先端の性能と具体的な改善を達成できることが示される。
論文 参考訳(メタデータ) (2021-11-12T23:52:59Z) - VM-MODNet: Vehicle Motion aware Moving Object Detection for Autonomous
Driving [3.6550372593827887]
移動物体検出(MOD)は自律運転において重要な課題である。
我々は,車両の運動情報を活用し,モデルに入力し,自我運動に基づく適応機構を実現することを目的とする。
Vehicle Motion (VMT) を用いたモデルでは,ベースラインアーキテクチャよりもmIoUが5.6%向上した。
論文 参考訳(メタデータ) (2021-04-22T10:46:55Z) - Self-Supervised Pretraining of 3D Features on any Point-Cloud [40.26575888582241]
3D登録なしで任意の3Dデータを扱うことができる簡単な自己監督関連方法を紹介します。
オブジェクト検出、セマンティックセグメンテーション、オブジェクト分類の9つのベンチマークでモデルを評価し、最新の結果を達成し、教師付きプリトレーニングを上回ります。
論文 参考訳(メタデータ) (2021-01-07T18:55:21Z) - Weakly Supervised 3D Object Detection from Lidar Point Cloud [182.67704224113862]
高品質な3Dオブジェクト検出器をトレーニングするために、ポイントクラウドデータに手動でラベルをつけるのはむずかしい。
本研究は、3次元物体検出のための弱教師付きアプローチを提案する。
提案手法は,500の弱い注釈付きシーンと534の正確なラベル付き車両インスタンスを用いて,現在のトップリード型全監視検出器の性能を85~95%向上させる。
論文 参考訳(メタデータ) (2020-07-23T10:12:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。