論文の概要: LayerLock: Non-collapsing Representation Learning with Progressive Freezing
- arxiv url: http://arxiv.org/abs/2509.10156v2
- Date: Mon, 15 Sep 2025 16:14:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 13:19:47.993551
- Title: LayerLock: Non-collapsing Representation Learning with Progressive Freezing
- Title(参考訳): LayerLock: プログレッシブ凍結による非折り畳み表現学習
- Authors: Goker Erdogan, Nikhil Parthasarathy, Catalin Ionescu, Drew Hudson, Alexander Lerchner, Andrew Zisserman, Mehdi Sajjadi, Joao Carreira,
- Abstract要約: 本稿では、自己教師付き視覚表現学習のためのシンプルで効果的なアプローチであるLayerLockを紹介する。
ビデオマスク自動符号化(MAE)モデルのトレーニング中、ViT層は深さの順に収束する。
我々は,この観測を,明示的なスケジュールに従ってモデルを段階的に凍結することにより,標準MAEの高速化に活用できることを示す。
- 参考スコア(独自算出の注目度): 69.87578927426831
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce LayerLock, a simple yet effective approach for self-supervised visual representation learning, that gradually transitions from pixel to latent prediction through progressive layer freezing. First, we make the observation that during training of video masked-autoencoding (MAE) models, ViT layers converge in the order of their depth: shallower layers converge early, deeper layers converge late. We then show that this observation can be exploited to accelerate standard MAE by progressively freezing the model according to an explicit schedule, throughout training. Furthermore, this same schedule can be used in a simple and scalable approach to latent prediction that does not suffer from "representation collapse". We apply our proposed approach, LayerLock, to large models of up to 4B parameters with results surpassing those of non-latent masked prediction on the 4DS perception suite.
- Abstract(参考訳): 本稿では,自己教師付き視覚表現学習におけるシンプルかつ効果的なアプローチであるLayerLockを紹介した。
まず、ビデオマスク自動符号化(MAE)モデルのトレーニング中、ViT層は深さの順に収束し、より浅い層は早期に収束し、より深い層は後期に収束する。
次に、この観測結果を利用して、トレーニングを通して、明示的なスケジュールに従ってモデルを段階的に凍結することにより、標準MAEを加速することができることを示す。
さらに、このスケジュールは"表現崩壊"に悩まされない潜伏予測へのシンプルでスケーラブルなアプローチで使用できる。
我々は,提案手法であるLayerLockを最大4Bパラメータの大規模モデルに適用し,その結果を4DS知覚スイート上での非遅延マスキング予測を上回った。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding [13.747101397628887]
大規模言語モデル(LLM)の高速化のためのエンドツーエンドのソリューションを提案する。
また,すべての変圧器層が同じ出口を共有できる早期の出口損失を,早期の層で低落率,後期の層で高落率,早期の出口損失に適用した。
このトレーニングレシピは、モデルに補助的なレイヤやモジュールを追加することなく、初期のレイヤでの早期退避の精度を高めることを示す。
論文 参考訳(メタデータ) (2024-04-25T16:20:23Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Pair-wise Layer Attention with Spatial Masking for Video Prediction [46.17429511620538]
Pair-wise Layer Attention (PLA) モジュールを開発した。
また,Pair-wise Layer Attention with Spatial Masking (SM-SM) フレームワークをトランスレータ予測のために提案する。
論文 参考訳(メタデータ) (2023-11-19T10:29:05Z) - Jump to Conclusions: Short-Cutting Transformers With Linear Transformations [60.37563766047492]
トランスフォーマーベースの言語モデルは、各層で入力の隠れ表現を生成するが、予測には最終層表現のみを使用する。
これは、モデルの内部決定過程と、その中間表現の有用性を曖昧にする。
線形変換を用いた簡単な鋳造法を提案する。
論文 参考訳(メタデータ) (2023-03-16T16:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。