論文の概要: BootsTAP: Bootstrapped Training for Tracking-Any-Point
- arxiv url: http://arxiv.org/abs/2402.00847v1
- Date: Thu, 1 Feb 2024 18:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 13:46:35.765406
- Title: BootsTAP: Bootstrapped Training for Tracking-Any-Point
- Title(参考訳): bootstap: トラッキングのためのブートストラップトレーニング
- Authors: Carl Doersch, Yi Yang, Dilara Gokay, Pauline Luc, Skanda Koppula,
Ankush Gupta, Joseph Heyward, Ross Goroshin, Jo\~ao Carreira, and Andrew
Zisserman
- Abstract要約: Tracking-Any-Point (TAP) は、ビデオ中の固体表面に対応する任意の点を追跡できるアルゴリズムである。
大規模でラベルなし、未修正の現実世界データは、最小限のアーキテクチャ変更でTAPモデルを改善することができる。
我々は,TAP-Vidベンチマークにおける最先端性能が,従来の結果よりも広いマージンで上回っていることを示す。
- 参考スコア(独自算出の注目度): 59.78386347329731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To endow models with greater understanding of physics and motion, it is
useful to enable them to perceive how solid surfaces move and deform in real
scenes. This can be formalized as Tracking-Any-Point (TAP), which requires the
algorithm to be able to track any point corresponding to a solid surface in a
video, potentially densely in space and time. Large-scale ground-truth training
data for TAP is only available in simulation, which currently has limited
variety of objects and motion. In this work, we demonstrate how large-scale,
unlabeled, uncurated real-world data can improve a TAP model with minimal
architectural changes, using a self-supervised student-teacher setup. We
demonstrate state-of-the-art performance on the TAP-Vid benchmark surpassing
previous results by a wide margin: for example, TAP-Vid-DAVIS performance
improves from 61.3% to 66.4%, and TAP-Vid-Kinetics from 57.2% to 61.5%.
- Abstract(参考訳): モデルに物理と運動をより深く理解させるには、実場面で固体表面がどのように動き、変形するかを理解するのに有用である。
これはトラック・アニー・ポイント(TAP)として定式化することができ、このアルゴリズムはビデオ内の固体表面に対応する任意の点を、空間と時間で密に追跡することができる。
tapの大規模地上訓練データはシミュレーションでのみ利用可能であり、現在はさまざまな物体や動きがある。
本研究では,大規模でラベルなし,未計算な実世界のデータが,自己教師型学生教師設定を用いて,最小限のアーキテクチャ変更でTAPモデルを改善する方法を示す。
例えば、TAP-Vid-DAVISのパフォーマンスは61.3%から66.4%に向上し、TAP-Vid-Kineticsは57.2%から61.5%に向上した。
関連論文リスト
- Developing a Resource-Constraint EdgeAI model for Surface Defect
Detection [1.338174941551702]
資源制約のあるエッジ環境におけるデバイス上でのトレーニングのために,Xceptionから修正した軽量なEdgeAIアーキテクチャを提案する。
我々はPCB欠陥検出タスクにおけるモデルの評価を行い、その性能を既存の軽量モデルと比較した。
本手法は他のリソース制約アプリケーションにも適用できるが,性能は高い。
論文 参考訳(メタデータ) (2023-12-04T15:28:31Z) - Effective Whole-body Pose Estimation with Two-stages Distillation [52.92064408970796]
全体ポーズ推定は、画像内の人体、手、顔、足のキーポイントをローカライズする。
textbfWhole-body textbfPose 推定器の2段階ポーズ textbfDistillation を提案し,その有効性と効率性について検討した。
論文 参考訳(メタデータ) (2023-07-29T03:49:28Z) - For SALE: State-Action Representation Learning for Deep Reinforcement
Learning [60.42044715596703]
SALEは、状態と行動の間のニュアンスな相互作用をモデル化する埋め込みを学ぶための新しいアプローチである。
我々は、SALEとRLのチェックポイントをTD3に統合し、TD7アルゴリズムを構成する。
OpenAIのジムのベンチマークタスクでは、TD7は平均276.7%、TD3よりも50.7%、それぞれ300k、500Mのタイムステップでパフォーマンスが向上している。
論文 参考訳(メタデータ) (2023-06-04T19:47:46Z) - Real-Time Flying Object Detection with YOLOv8 [0.0]
本稿では,移動学習やさらなる研究に使用できる飛行物体のリアルタイム検出のための一般化モデルを提案する。
次に、これらの学習パラメータを実世界の環境をよりよく表現したデータセット上で転送学習を行う。
我々の最終一般化モデルは、0.685のmAP50-95と50fpsの1080pビデオの平均推論速度を達成する。
論文 参考訳(メタデータ) (2023-05-17T06:11:10Z) - Contextualized Spatio-Temporal Contrastive Learning with
Self-Supervision [106.77639982059014]
時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。
まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。
次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
論文 参考訳(メタデータ) (2021-12-09T19:13:41Z) - Learning Online for Unified Segmentation and Tracking Models [30.146300294418516]
TrackMLPは、部分的な情報のみから学習するために最適化された新しいメタラーニング手法である。
本モデルでは, 競合モデルに対して, 最先端の性能と具体的な改善を達成できることが示される。
論文 参考訳(メタデータ) (2021-11-12T23:52:59Z) - Self-Supervised Pretraining of 3D Features on any Point-Cloud [40.26575888582241]
3D登録なしで任意の3Dデータを扱うことができる簡単な自己監督関連方法を紹介します。
オブジェクト検出、セマンティックセグメンテーション、オブジェクト分類の9つのベンチマークでモデルを評価し、最新の結果を達成し、教師付きプリトレーニングを上回ります。
論文 参考訳(メタデータ) (2021-01-07T18:55:21Z) - Weakly Supervised 3D Object Detection from Lidar Point Cloud [182.67704224113862]
高品質な3Dオブジェクト検出器をトレーニングするために、ポイントクラウドデータに手動でラベルをつけるのはむずかしい。
本研究は、3次元物体検出のための弱教師付きアプローチを提案する。
提案手法は,500の弱い注釈付きシーンと534の正確なラベル付き車両インスタンスを用いて,現在のトップリード型全監視検出器の性能を85~95%向上させる。
論文 参考訳(メタデータ) (2020-07-23T10:12:46Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。