論文の概要: Understanding and Enhancing Mask-Based Pretraining towards Universal Representations
- arxiv url: http://arxiv.org/abs/2509.21650v1
- Date: Thu, 25 Sep 2025 22:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.04735
- Title: Understanding and Enhancing Mask-Based Pretraining towards Universal Representations
- Title(参考訳): 普遍表現へのマスクによる事前学習の理解と促進
- Authors: Mingze Dong, Leda Wang, Yuval Kluger,
- Abstract要約: マスクをベースとした事前訓練は、言語、視覚、生物学にまたがる近代的な大規模モデルの基盤となっている。
マスクによる事前学習の動作は,高次元最小ノルム(リッジレス)線形回帰におけるテストリスクによって直接的に特徴付けられることを示す。
我々はRandomly Random Mask Auto (R$2$MAE)を提案する。
- 参考スコア(独自算出の注目度): 13.262679155411599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mask-based pretraining has become a cornerstone of modern large-scale models across language, vision, and recently biology. Despite its empirical success, its role and limits in learning data representations have been unclear. In this work, we show that the behavior of mask-based pretraining can be directly characterized by test risk in high-dimensional minimum-norm ("ridge-less") linear regression, without relying on further model specifications. Further analysis of linear models uncovers several novel aspects of mask-based pretraining. The theoretical framework and its implications have been validated across diverse neural architectures (including MLPs, CNNs, and Transformers) applied to both vision and language tasks. Guided by our theory, we propose an embarrassingly simple yet overlooked pretraining scheme named Randomly Random Mask AutoEncoding (R$^2$MAE), which enforces capturing multi-scale features from data and is able to outperform optimal fixed mask ratio settings in our linear model framework. We implement R$^2$MAE in vision, language, DNA sequence, and single-cell models, where it consistently outperforms standard and more complicated masking schemes, leading to improvements for state-of-the-art models. Our code is available at: https://github.com/MingzeDong/r2mae
- Abstract(参考訳): マスクをベースとした事前訓練は、言語、視覚、そして最近の生物学にまたがる近代的な大規模モデルの基盤となっている。
実証的な成功にもかかわらず、データ表現の学習におけるその役割と限界ははっきりしていない。
本研究では,マスクによる事前学習の動作が,モデル仕様に頼らずに,高次元最小ノルム(リッジレス)線形回帰におけるテストリスクによって直接的に特徴付けられることを示す。
線形モデルのさらなる解析により、マスクベースの事前訓練のいくつかの新しい側面が明らかになった。
理論的枠組みとその意味は、視覚と言語の両方に適用される様々なニューラルネットワーク(MLP、CNN、トランスフォーマーを含む)で検証されている。
本稿では,Randomly Random Mask AutoEncoding (R$^2$MAE) という,データからのマルチスケール特徴の取得を強制し,線形モデルフレームワークにおける最適固定マスク比設定を上回り得る,恥ずかしいほど単純で見落とされがちな事前学習方式を提案する。
我々は、視覚、言語、DNA配列、シングルセルモデルにR$^2$MAEを実装し、標準およびより複雑なマスキングスキームを一貫して上回り、最先端のモデルの改善に繋がる。
私たちのコードは、https://github.com/MingzeDong/r2maeで利用可能です。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - RePreM: Representation Pre-training with Masked Model for Reinforcement
Learning [28.63696288537304]
本稿では,RL(RePreM)における事前学習のためのマスク付きモデルを提案し,トランスフォーマブロックと組み合わさったエンコーダを訓練して,軌道中のマスク状態や動作を予測する。
RePreMはデータセットのサイズ、データセットの品質、エンコーダのスケールとよく一致しており、大きなRLモデルに対するその可能性を示している。
論文 参考訳(メタデータ) (2023-03-03T02:04:14Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Parameter-Efficient Masking Networks [61.43995077575439]
先進的なネットワーク設計は、しばしば多数の繰り返し構造を含む(例: Transformer)。
本研究では,マスクの学習により,一意値に制限された固定ランダムウェイトの代表的ポテンシャルについて検討する。
これはモデル圧縮のための新しいパラダイムをもたらし、モデルサイズを減少させます。
論文 参考訳(メタデータ) (2022-10-13T03:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。