論文の概要: Reinforcement Learning meets Masked Video Modeling : Trajectory-Guided Adaptive Token Selection
- arxiv url: http://arxiv.org/abs/2505.08561v1
- Date: Tue, 13 May 2025 13:35:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.58624
- Title: Reinforcement Learning meets Masked Video Modeling : Trajectory-Guided Adaptive Token Selection
- Title(参考訳): モークビデオモデリングによる強化学習 : 軌道誘導型適応トークン選択
- Authors: Ayush K. Rai, Kyle Min, Tarun Krishna, Feiyan Hu, Alan F. Smeaton, Noel E. O'Connor,
- Abstract要約: 新規かつ一般化可能なトラジェクトリ・アウェア・トケン・サンプラー(TATS)について紹介する。
TATSはトークンの動作ダイナミクスをモデル化し、マスク付きオートエンコーダフレームワークにシームレスに統合することができる。
本モデルでは,動作認識の下流タスクの性能を損なうことなく,アグレッシブマスキングを可能にすることを示す。
- 参考スコア(独自算出の注目度): 12.421172561756473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked video modeling~(MVM) has emerged as a highly effective pre-training strategy for visual foundation models, whereby the model reconstructs masked spatiotemporal tokens using information from visible tokens. However, a key challenge in such approaches lies in selecting an appropriate masking strategy. Previous studies have explored predefined masking techniques, including random and tube-based masking, as well as approaches that leverage key motion priors, optical flow and semantic cues from externally pre-trained models. In this work, we introduce a novel and generalizable Trajectory-Aware Adaptive Token Sampler (TATS), which models the motion dynamics of tokens and can be seamlessly integrated into the masked autoencoder (MAE) framework to select motion-centric tokens in videos. Additionally, we propose a unified training strategy that enables joint optimization of both MAE and TATS from scratch using Proximal Policy Optimization (PPO). We show that our model allows for aggressive masking without compromising performance on the downstream task of action recognition while also ensuring that the pre-training remains memory efficient. Extensive experiments of the proposed approach across four benchmarks, including Something-Something v2, Kinetics-400, UCF101, and HMDB51, demonstrate the effectiveness, transferability, generalization, and efficiency of our work compared to other state-of-the-art methods.
- Abstract(参考訳): マスク付きビデオモデリング〜(MVM)は、視覚基盤モデルの高度に効果的な事前学習戦略として現れ、可視トークンの情報を用いてマスク付き時空間トークンを再構成する。
しかし、このようなアプローチにおける重要な課題は、適切なマスキング戦略を選択することである。
従来の研究では、ランダムやチューブベースのマスキングなど、事前定義されたマスキング技術や、キーモーションの先行、光学フロー、外部に事前訓練されたモデルからのセマンティックキューを活用するアプローチなどについて検討されてきた。
本研究では,トークンの運動力学をモデル化し,動画中の動き中心のトークンを選択するためのマスク付きオートエンコーダ(MAE)フレームワークにシームレスに統合可能な,新規で一般化可能なトラジェクトリ・アウェア適応トークンサンプリング(TATS)を提案する。
さらに,PPO(Proximal Policy Optimization)を用いて,MAEとTATSの協調最適化をスクラッチから実現する統一的なトレーニング戦略を提案する。
本モデルでは,動作認識の下流タスクの性能を損なうことなく,アグレッシブマスキングが可能であり,事前学習がメモリ効率を保ち続けることを保証する。
提案手法は,Something v2, Kinetics-400, UCF101, HMDB51 の4つのベンチマークにおいて,他の最先端手法と比較して,作業の有効性,伝達性,一般化,効率性を示す。
関連論文リスト
- Emerging Property of Masked Token for Effective Pre-training [15.846621577804791]
Masked Image Modeling (MIM)はコンピュータビジョンにおける最近のブレークスルーの推進に役立っている。
MIMの全体的な効率は、トレーニング前のフェーズの長い持続時間によって妨げられることがある。
本稿では,マスクトークンの重み付けとキー特性の強化によるモデル効率の向上を目的として,マスクトークン最適化(MTO)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-12T08:46:53Z) - Salience-Based Adaptive Masking: Revisiting Token Dynamics for Enhanced Pre-training [33.39585710223628]
適応型マスキングはトークンサリエンスを優先することでMIMアプローチの事前学習性能を向上させる。
本研究では,ImageNet-1Kデータセット上でのマスクによる事前学習において,最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-04-12T08:38:51Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Boosting Adversarial Transferability with Learnable Patch-wise Masks [16.46210182214551]
敵の例は、異なるモデル間での転送可能性のため、セキュリティクリティカルなアプリケーションで広く注目を集めている。
本稿では、モデル固有の識別領域が、ソースモデルに過度に適合し、ターゲットモデルへの転送可能性を低減する重要な要因であると論じる。
これらの領域を正確にローカライズするために,マスクの自動最適化のための学習可能なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-28T05:32:22Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - Effective Unsupervised Domain Adaptation with Adversarially Trained
Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。
本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-05T01:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。