論文の概要: TrackMAE: Video Representation Learning via Track Mask and Predict
- arxiv url: http://arxiv.org/abs/2603.27268v1
- Date: Sat, 28 Mar 2026 13:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.874264
- Title: TrackMAE: Video Representation Learning via Track Mask and Predict
- Title(参考訳): TrackMAE: トラックマスクと予測によるビデオ表現学習
- Authors: Renaud Vandeghen, Fida Mohammad Thoker, Marc Van Droogenbroeck, Bernard Ghanem,
- Abstract要約: Masked Video Modeling (MVM)は、シンプルでスケーラブルな自己教師付き事前トレーニングパラダイムとして登場した。
動作情報を復元信号として明示的に利用するシンプルなマスク付きビデオモデリングパラダイムであるTrackMAEを提案する。
我々は、さまざまな下流設定の6つのデータセットを評価し、TrackMAEが最先端のビデオ自己教師型学習ベースラインを一貫して上回っていることを発見した。
- 参考スコア(独自算出の注目度): 53.79942817343784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked video modeling (MVM) has emerged as a simple and scalable self-supervised pretraining paradigm, but only encodes motion information implicitly, limiting the encoding of temporal dynamics in the learned representations. As a result, such models struggle on motion-centric tasks that require fine-grained motion awareness. To address this, we propose TrackMAE, a simple masked video modeling paradigm that explicitly uses motion information as a reconstruction signal. In TrackMAE, we use an off-the-shelf point tracker to sparsely track points in the input videos, generating motion trajectories. Furthermore, we exploit the extracted trajectories to improve random tube masking with a motion-aware masking strategy. We enhance video representations learned in both pixel and feature semantic reconstruction spaces by providing a complementary supervision signal in the form of motion targets. We evaluate on six datasets across diverse downstream settings and find that TrackMAE consistently outperforms state-of-the-art video self-supervised learning baselines, learning more discriminative and generalizable representations. Code available at https://github.com/rvandeghen/TrackMAE
- Abstract(参考訳): Masked Video Modeling (MVM) は、単純でスケーラブルな自己教師付き事前学習パラダイムとして登場したが、暗黙的に動作情報を符号化するだけであり、学習された表現における時間ダイナミクスの符号化を制限する。
結果として、このようなモデルは、微粒な動き認識を必要とする動き中心のタスクに苦しむ。
そこで我々は,動作情報を復元信号として明示的に利用するシンプルなマスク付きビデオモデリングパラダイムであるTrackMAEを提案する。
TrackMAEでは、オフ・ザ・シェルフ・ポイント・トラッカーを使用して、入力ビデオ内のポイントを疎に追跡し、モーション・トラジェクトリを生成する。
さらに、抽出した軌道を利用して、動き認識マスキング戦略を用いてランダムな管マスキングを改善する。
我々は,動作目標の形で補完的な監視信号を提供することにより,画素と特徴的セマンティック再構築空間で学習した映像表現を強化する。
我々は、さまざまな下流設定の6つのデータセットを評価し、TrackMAEは最先端のビデオの自己教師型学習ベースラインを一貫して上回り、より差別的で一般化可能な表現を学習する。
https://github.com/rvandeghen/TrackMAE
関連論文リスト
- Bitrate-Controlled Diffusion for Disentangling Motion and Content in Video [38.71994714429696]
本稿では,動画データを動的モーションと静的コンテンツコンポーネントにアンタングルする,新しい汎用フレームワークを提案する。
提案手法は,従来よりも仮定や帰納バイアスの少ない自己教師型パイプラインである。
実世界の対話型ヘッドビデオにおける非交互表現学習フレームワークの動作伝達と自動回帰動作生成タスクの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-10T08:14:45Z) - SMILE: Infusing Spatial and Motion Semantics in Masked Video Learning [50.98341607245458]
Masked Video Modelingはビデオ自己教師型学習(SSL)に有効なパラダイムである
本稿では,空間的意味論と動き的意味論を融合させることにより,SMILEと呼ばれるビデオ表現学習のための新しいSSL手法を提案する。
我々は、自然な映像データを必要とせず、強力な映像表現を学習できる、新しい自己教師型ビデオ学習パラダイムを確立した。
論文 参考訳(メタデータ) (2025-04-01T08:20:55Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Self-supervised Video Representation Learning with Motion-Aware Masked
Autoencoders [46.38458873424361]
近年,Masked Autoencoders (MAE) が自己教師型表現学習者として登場している。
本研究では、モーションアウェアの変種であるMotionMAEを紹介する。
本モデルは,時間とともに対応する動き構造情報を付加的に予測するように設計されている。
論文 参考訳(メタデータ) (2022-10-09T03:22:15Z) - AutoTrajectory: Label-free Trajectory Extraction and Prediction from
Videos using Dynamic Points [92.91569287889203]
軌道抽出と予測のための新しいラベルなしアルゴリズムAutoTrajectoryを提案する。
動画中の移動物体をよりよく捉えるために,ダイナミックポイントを導入する。
ビデオ内の歩行者などの移動物体を表すインスタンスポイントに動的ポイントを集約する。
論文 参考訳(メタデータ) (2020-07-11T08:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。