論文の概要: Masks, Signs, And Learning Rate Rewinding
- arxiv url: http://arxiv.org/abs/2402.19262v1
- Date: Thu, 29 Feb 2024 15:32:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:26:53.825380
- Title: Masks, Signs, And Learning Rate Rewinding
- Title(参考訳): マスク、サイン、学習率の巻き戻し
- Authors: Advait Gadhikar and Rebekka Burkholz
- Abstract要約: 反復的マグニチュード・プルーニング(IMP)の強力な変種としてLRR(Learning Rate Rewinding)が確立されている。
マスク学習とパラメータ最適化を両立させる実験を行った。
この仮説を支持するために、LRRがIMPよりも多くのケースで成功することを単純化された単一の隠れニューロン設定で証明する。
- 参考スコア(独自算出の注目度): 21.245849787139655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning Rate Rewinding (LRR) has been established as a strong variant of
Iterative Magnitude Pruning (IMP) to find lottery tickets in deep
overparameterized neural networks. While both iterative pruning schemes couple
structure and parameter learning, understanding how LRR excels in both aspects
can bring us closer to the design of more flexible deep learning algorithms
that can optimize diverse sets of sparse architectures. To this end, we conduct
experiments that disentangle the effect of mask learning and parameter
optimization and how both benefit from overparameterization. The ability of LRR
to flip parameter signs early and stay robust to sign perturbations seems to
make it not only more effective in mask identification but also in optimizing
diverse sets of masks, including random ones. In support of this hypothesis, we
prove in a simplified single hidden neuron setting that LRR succeeds in more
cases than IMP, as it can escape initially problematic sign configurations.
- Abstract(参考訳): LRR(Learning Rate Rewinding)は、深くパラメータ化されたニューラルネットワークで宝くじを見つけるためにIMP(Iterative Magnitude Pruning)の強力な変種として確立されている。
反復的プルーニングスキームは構造とパラメータ学習を結合するが、lrrがどちらの面で優れているかを理解することは、多様なスパースアーキテクチャのセットを最適化するより柔軟なディープラーニングアルゴリズムの設計に近付く。
この目的のために,マスク学習とパラメータ最適化の効果と過度パラメータ化の利点を両立させる実験を行った。
パラメータ記号を早期にフリップし、摂動にサインするために頑健であることは、マスクの識別だけでなく、ランダムなマスクを含む多様なマスクセットの最適化にも有効であるように見える。
この仮説を支持するために,LRRがIMPよりも多くのケースで成功することを,単一隠れニューロン設定で証明した。
関連論文リスト
- Single-Layer Learnable Activation for Implicit Neural Representation (SL$^{2}$A-INR) [6.572456394600755]
ニューラルネットワークを利用して、座標入力を対応する属性に変換するインプシット表現(INR)は、視覚関連領域において大きな進歩をもたらした。
SL$2$A-INR を単層学習可能なアクティベーション関数として提案し,従来の ReLU ベースの有効性を推し進める。
提案手法は,画像表現,3次元形状再構成,単一画像超解像,CT再構成,新しいビューなど,多様なタスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T02:02:15Z) - MLAE: Masked LoRA Experts for Visual Parameter-Efficient Fine-Tuning [45.93128932828256]
Masked LoRA Experts (MLAE) は、視覚的PEFTにマスキングの概念を適用する革新的なアプローチである。
本手法は,低ランク行列を独立したランク1サブマトリクスに変換するセル分解戦略を組み込んだものである。
MLAEは,VTAB-1kベンチマークでは平均78.8%,FGVCベンチマークでは90.9%の精度で,新しい最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-05-29T08:57:23Z) - Random Masking Finds Winning Tickets for Parameter Efficient Fine-tuning [17.638387297838936]
微調整の大きな言語モデル(LLM)はコストがかかる。
PEFTはパラメータのごく一部をトレーニングすることでこの問題に対処し、その成功は事前訓練されたモデルの表現性と柔軟性を明らかにする。
本稿では,PEFTの限界について検討し,その設計をさらに単純化し,標準設定を超えてトレーニング可能なパラメータの数を削減した。
予測される学習率が大きいと、ランダムマスキングはトレーニング可能なパラメータを少なくして、様々なタスクにおける標準PEFTアルゴリズムの性能と一致させることができる。
論文 参考訳(メタデータ) (2024-05-04T07:44:18Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Adaptive neighborhood Metric learning [184.95321334661898]
適応的近傍距離距離学習(ANML)という新しい距離距離距離距離距離距離学習アルゴリズムを提案する。
ANMLは線形埋め込みと深層埋め込みの両方を学ぶのに使うことができる。
本手法で提案するemphlog-exp平均関数は,深層学習手法をレビューするための新たな視点を与える。
論文 参考訳(メタデータ) (2022-01-20T17:26:37Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Towards Minimax Optimal Reinforcement Learning in Factored Markov
Decision Processes [53.72166325215299]
エピソード因子化マルコフ決定過程(FMDP)における最小強化学習について検討する。
第一に、分解された構造のリッチなクラスに対する最小限の後悔の保証を達成する。
2つ目は、少し悪い後悔をしながら、より良い計算複雑性を楽しみます。
論文 参考訳(メタデータ) (2020-06-24T00:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。