論文の概要: Mimetic Initialization of MLPs
- arxiv url: http://arxiv.org/abs/2602.07156v1
- Date: Fri, 06 Feb 2026 19:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.479063
- Title: Mimetic Initialization of MLPs
- Title(参考訳): MLPのミメティック初期化
- Authors: Asher Trockman, J. Zico Kolter,
- Abstract要約: 本手法をチャネル混合層,すなわち多層パーセプトロン(MLP)に適用するための最初の試みを示す。
CIFAR-10やImageNet-1kのような小さなビジョンタスクのトレーニングをスピードアップします。
- 参考スコア(独自算出の注目度): 56.8359136396785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mimetic initialization uses pretrained models as case studies of good initialization, using observations of structures in trained weights to inspire new, simple initialization techniques. So far, it has been applied only to spatial mixing layers, such convolutional, self-attention, and state space layers. In this work, we present the first attempt to apply the method to channel mixing layers, namely multilayer perceptrons (MLPs). Our extremely simple technique for MLPs -- to give the first layer a nonzero mean -- speeds up training on small-scale vision tasks like CIFAR-10 and ImageNet-1k. Though its effect is much smaller than spatial mixing initializations, it can be used in conjunction with them for an additional positive effect.
- Abstract(参考訳): 模倣初期化は、事前訓練されたモデルを良い初期化のケーススタディとして使用し、訓練された重量における構造の観察を使用して、新しい単純な初期化テクニックを刺激する。
これまでは、畳み込み、自己アテンション、状態空間層といった空間混合層にのみ適用されてきた。
本研究では,この手法を多層パーセプトロン(MLP)のチャネル混合層に適用するための最初の試みを示す。
MLPの非常に単純なテクニック -- 第一層にゼロではない意味を与える -- は、CIFAR-10やImageNet-1kのような小規模なビジョンタスクのトレーニングをスピードアップします。
その効果は空間混合初期化よりもはるかに小さいが、追加の正の効果としてそれらと併用することができる。
関連論文リスト
- Information-Theoretic Greedy Layer-wise Training for Traffic Sign Recognition [0.5024983453990065]
レイヤワイズトレーニングは、クロスエントロピー損失とバックプロパゲーションの必要性を排除する。
既存の階層的なトレーニングアプローチの多くは、比較的小さなデータセットでのみ評価されている。
本稿では,最近開発された決定論的情報ボトルネック(DIB)と行列に基づくR'enyiの$alpha$-orderエントロピー関数に基づく,階層的学習手法を提案する。
論文 参考訳(メタデータ) (2025-10-31T17:24:58Z) - TrAct: Making First-layer Pre-Activations Trainable [65.40281259525578]
視覚モデルの第1層の訓練について検討し、画素値と更新等級の関係を明確にする。
コントラストの低い画像は、高いコントラストのイメージよりも学習への影響が小さい。
非常に明るい、または非常に暗い画像は、適度な明るさのイメージよりも重量に強い影響を与える。
論文 参考訳(メタデータ) (2024-10-31T14:25:55Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Sparser, Better, Deeper, Stronger: Improving Sparse Training with Exact Orthogonal Initialization [49.06421851486415]
静的スパーストレーニングは、スパースモデルをスクラッチからトレーニングすることを目的としており、近年顕著な成果を上げている。
ランダムなアジェンダ回転に基づく新しいスパースな直交初期化スキームであるExact Orthogonal Initialization (EOI)を提案する。
本手法は,残差接続や正規化を伴わずに,1000層ネットワークとCNNネットワークを疎結合に訓練することができる。
論文 参考訳(メタデータ) (2024-06-03T19:44:47Z) - Guiding The Last Layer in Federated Learning with Pre-Trained Models [18.382057374270143]
フェデレートラーニング(FL)は、データを共有することなく、多数の参加者にまたがってモデルをトレーニングできる新興パラダイムである。
NCM(Nearest Class Means)を用いた分類ヘッドの適合は,既存の提案よりも正確に,桁違いに効率的に行えることを示す。
論文 参考訳(メタデータ) (2023-06-06T18:02:02Z) - Layer Grafted Pre-training: Bridging Contrastive Learning And Masked
Image Modeling For Label-Efficient Representations [130.05189514598996]
Mask Image Modeling (MIM) と Contrastive Learning (CL) は、自己超越が優れた表現を学ぶのに強力であることを示した。
本稿では,CLとMIMの損失の簡易な共同最適化が,矛盾する勾配方向を導いた経験的観察を行う。
実験により,MIMとCLは下層と上層にそれぞれ適していることがわかった。
初期のレイヤはまず1つのMIM損失の下でトレーニングされ、その上に、後者のレイヤは別のCL損失の下でトレーニングされ続けます。
論文 参考訳(メタデータ) (2023-02-27T20:52:10Z) - POGD: Gradient Descent with New Stochastic Rules [0.0]
本稿では,主に目標値に達するためのトレーニング速度と,局所的最小値を防止する能力に着目した。
本稿では,MNISTとcifar-10データセットを用いた畳み込みニューラルネットワーク(CNN)画像分類により実験を行った。
論文 参考訳(メタデータ) (2022-10-15T12:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。