論文の概要: Rethinking JEPA: Compute-Efficient Video SSL with Frozen Teachers
- arxiv url: http://arxiv.org/abs/2509.24317v1
- Date: Mon, 29 Sep 2025 05:55:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.773508
- Title: Rethinking JEPA: Compute-Efficient Video SSL with Frozen Teachers
- Title(参考訳): JEPAを再考する: 凍結教師による効率的なビデオSSL
- Authors: Xianhang Li, Chen Huang, Chun-Liang Li, Eran Malach, Josh Susskind, Vimal Thilak, Etai Littwin,
- Abstract要約: ビデオ共同埋め込み予測アーキテクチャ(V-JEPA)は,指数移動平均(EMA)更新型教師を用いて,潜伏空間内のマスキング領域を予測することで,市販のビデオ表現の一般化を学習する。
マスク付き潜伏予測を再検討し,凍結した教師が満足することを示す。
生徒の質は、教師の質に対して著しく堅牢であることに気付きました。
- 参考スコア(独自算出の注目度): 37.91964614027141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Joint Embedding Predictive Architectures (V-JEPA) learn generalizable off-the-shelf video representation by predicting masked regions in latent space with an exponential moving average (EMA)-updated teacher. While EMA prevents representation collapse, it complicates scalable model selection and couples teacher and student architectures. We revisit masked-latent prediction and show that a frozen teacher suffices. Concretely, we (i) train a target encoder with a simple pixel-reconstruction objective under V-JEPA masking, then (ii) freeze it and train a student to predict the teacher's latents on masked regions. This leads to a two-stage, unregularized scheme that we refer to as SALT (Static-teacher Asymmetric Latent Training). SALT decouples optimization into pixel reconstruction (teacher) and masked latent prediction (student), increasing transparency, efficiency, and scalability while preserving the ability of representation to generalize under frozen evaluation. Empirically, our student models outperform recently proposed V-JEPA 2 encoders under frozen backbone evaluation across diverse benchmarks. They are also more compute-optimal: at matched pretraining FLOPs, our method achieves higher probing accuracy, and its scaling curves dominate V-JEPA's accuracy-FLOPs Pareto frontier. Finally, we find that student quality is remarkably robust to teacher quality: high-performing students emerge even with small, sub-optimal teachers. This points to a compute budget allocation that should overwhelmingly favor the student. These results position SALT as a simple, scalable, and compute-efficient alternative to EMA-based self-distillation for video representation learning.
- Abstract(参考訳): ビデオ共同埋め込み予測アーキテクチャ(V-JEPA)は,指数移動平均(EMA)更新型教師を用いて,潜伏空間内のマスキング領域を予測することで,市販のビデオ表現の一般化を学習する。
EMAは表現の崩壊を防ぐが、スケーラブルなモデル選択を複雑にし、教師と学生のアーキテクチャを結合する。
マスク付き潜伏予測を再検討し,凍結した教師が満足することを示す。
具体的には
i)V-JEPAマスキングの下で、単純な画素再構成目標でターゲットエンコーダを訓練する。
(二)教師の潜伏者を仮面の地で予測するように学生を訓練すること。
これは、SALT(Static-Teacher Asymmetric Latent Training)と呼ばれる2段階の非正規化スキームにつながります。
SALTは最適化を画素再構成(Teacher)とマスク付き潜伏予測(Student)に分離し、透過性、効率、拡張性を向上し、凍結した評価の下で表現を一般化する能力を保持する。
実験的に、我々の学生モデルは、様々なベンチマークで凍結したバックボーン評価の下で、最近提案したV-JEPA 2エンコーダより優れています。
一致した事前学習FLOPでは,提案手法は高い探索精度を達成し,そのスケーリング曲線がV-JEPAの精度-FLOPs Paretoフロンティアを支配している。
最後に, 生徒の質が教師の質に著しく影響していることに気付き, 成績のよい生徒は, 小人数の準最適教師でも出現する。
これは、生徒が圧倒的に有利になる計算予算の割り当てを示している。
これらの結果から,SALTはビデオ表現学習のためのEMAベースの自己蒸留に代わる,シンプルでスケーラブルで計算効率のよい代替品として位置づけられた。
関連論文リスト
- Gap Preserving Distillation by Building Bidirectional Mappings with A Dynamic Teacher [43.678380057638016]
Gap Preserving Distillation (GPD) 法は、生徒にこのギャップを埋めるように訓練すると共に、スクラッチから追加の動的教師モデルを訓練する。
実験では、GPDはCNNとトランスフォーマーアーキテクチャの両方で既存の蒸留法よりも大幅に優れている。
GPDはまた、スクラッチからのトレーニングや微調整を含む事前訓練を受けた教師なしでシナリオを一般化し、ResNet18では1.80%と0.89%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-10-05T12:29:51Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Masked Video Distillation: Rethinking Masked Feature Modeling for
Self-supervised Video Representation Learning [123.63301596019522]
Masked Video distillation (MVD) は、ビデオ表現学習のための単純な2段階マスク付き特徴モデリングフレームワークである。
教師モデルを選択するために,ビデオ教師が教える生徒が時間重のビデオタスクにおいて,より優れたパフォーマンスを発揮することを観察する。
我々は,異なる教師の利点を活用するために,MVDのための時空間協調学習法を設計する。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - ALP-KD: Attention-Based Layer Projection for Knowledge Distillation [30.896957367331137]
2つのニューラルネットワーク、すなわち教師と学生は、トレーニング中に一緒に結合されます。
教師ネットワークは信頼できる予測者であり、生徒はその予測を模倣しようとします。
このような状況下では、蒸留は最終予測でのみ行われるが、生徒は教師が内部成分を監督する利益も得る。
論文 参考訳(メタデータ) (2020-12-27T22:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。