論文の概要: EAST: Early Action Prediction Sampling Strategy with Token Masking
- arxiv url: http://arxiv.org/abs/2604.18367v1
- Date: Mon, 20 Apr 2026 14:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.953221
- Title: EAST: Early Action Prediction Sampling Strategy with Token Masking
- Title(参考訳): EAST:Token Maskingによる早期行動予測サンプリング戦略
- Authors: Iva Sović, Ivan Martinović, Marin Oršić,
- Abstract要約: EASTは、モデルが不完全な観測を推論できるシンプルで効率的なフレームワークである。
私たちの重要な貢献は、観察されたビデオフレームと観測されていないビデオフレームを分離する時間ステップをサンプリングするランダム化トレーニング戦略です。
観測と将来の両方の表現に関する共同学習はパフォーマンスを大幅に向上させ、エンコーダのみのモデルが優れていることを許す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Early action prediction seeks to anticipate an action before it fully unfolds, but limited visual evidence makes this task especially challenging. We introduce EAST, a simple and efficient framework that enables a model to reason about incomplete observations. In our empirical study, we identify key components when training early action prediction models. Our key contribution is a randomized training strategy that samples a time step separating observed and unobserved video frames, enabling a single model to generalize seamlessly across all test-time observation ratios. We further show that joint learning on both observed and future (oracle) representations significantly boosts performance, even allowing an encoder-only model to excel. To improve scalability, we propose a token masking procedure that cuts memory usage in half and accelerates training by 2x with negligible accuracy loss. Combined with a forecasting decoder, EAST sets a new state of the art on NTU60, SSv2, and UCF101, surpassing previous best work by 10.1, 7.7, and 3.9 percentage points, respectively.
- Abstract(参考訳): 初期の行動予測は、完全に展開する前にアクションを予測しようとするが、視覚的な証拠は限られており、このタスクは特に困難である。
EASTは、モデルが不完全な観測を推論できるシンプルで効率的なフレームワークである。
実験的検討では,早期行動予測モデルの訓練において重要な要素を同定した。
我々の重要な貢献はランダム化されたトレーニング戦略であり、観察されたビデオフレームと観測されていないビデオフレームを分離した時間ステップをサンプリングし、単一のモデルが全てのテスト時間観察比率をシームレスに一般化できるようにする。
さらに,観測と将来の両表現における共同学習は,エンコーダのみのモデルが優れても,性能を著しく向上させることを示した。
スケーラビリティを向上させるために,メモリ使用量を半分に削減し,トレーニングを2倍高速化するトークンマスキング手法を提案する。
EAST は予測デコーダと組み合わせて NTU60 と SSv2 と UCF101 に新たな最先端技術を設定し、それぞれ 10.1 と 7.7 と 3.9 のポイントを達成している。
関連論文リスト
- Next-Embedding Prediction Makes Strong Vision Learners [68.55755328850634]
モデルをトレーニングして埋め込みを生成し、予測タスクを直接実行します。
Next-Embedding Predictive Autoregression (NEPA)はタスク間で強力な結果をもたらす。
埋め込みから生成する事前学習は、視覚的な自己教師型学習に代わる、シンプルでスケーラブルで、潜在的にモダリティに依存しない代替手段を提供する、と私たちは信じています。
論文 参考訳(メタデータ) (2025-12-18T18:59:58Z) - TSPulse: Dual Space Tiny Pre-Trained Models for Rapid Time-Series Analysis [12.034816114258803]
TSPulseは、1Mパラメータしか持たない超コンパクトな時系列事前訓練モデルである。
分類、異常検出、インプット、検索タスクで強く機能する。
結果は100Mパラメータ(既存のSOTAモデルより10-100倍小さい)で達成される。
論文 参考訳(メタデータ) (2025-05-19T12:18:53Z) - VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning [59.68917139718813]
そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。
観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
論文 参考訳(メタデータ) (2024-10-04T14:52:09Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Semi-supervised Facial Action Unit Intensity Estimation with Contrastive
Learning [54.90704746573636]
提案手法では,手動でキーフレームを選択する必要はなく,2%の注釈付きフレームで最先端の結果を生成できる。
提案手法は, ランダムに選択したデータに対してわずか2%の費用で作業した場合に, 既存の手法よりも優れていることを実験的に検証した。
論文 参考訳(メタデータ) (2020-11-03T17:35:57Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。