論文の概要: Random Masking Finds Winning Tickets for Parameter Efficient Fine-tuning
- arxiv url: http://arxiv.org/abs/2405.02596v1
- Date: Sat, 4 May 2024 07:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 19:20:44.575721
- Title: Random Masking Finds Winning Tickets for Parameter Efficient Fine-tuning
- Title(参考訳): パラメータ効率の良いファインチューニングのための勝利チケットを見つけるランダム・マスキング
- Authors: Jing Xu, Jingzhao Zhang,
- Abstract要約: 微調整の大きな言語モデル(LLM)はコストがかかる。
PEFTはパラメータのごく一部をトレーニングすることでこの問題に対処し、その成功は事前訓練されたモデルの表現性と柔軟性を明らかにする。
本稿では,PEFTの限界について検討し,その設計をさらに単純化し,標準設定を超えてトレーニング可能なパラメータの数を削減した。
予測される学習率が大きいと、ランダムマスキングはトレーニング可能なパラメータを少なくして、様々なタスクにおける標準PEFTアルゴリズムの性能と一致させることができる。
- 参考スコア(独自算出の注目度): 17.638387297838936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning large language models (LLM) can be costly. Parameter-efficient fine-tuning (PEFT) addresses the problems by training a fraction of the parameters, whose success reveals the expressiveness and flexibility of pretrained models. This paper studies the limit of PEFT, by further simplifying its design and reducing the number of trainable parameters beyond standard setups. To this end, we use Random Masking to fine-tune the pretrained model. Despite its simplicity, we show that Random Masking is surprisingly effective: with a larger-than-expected learning rate, Random Masking can match the performance of standard PEFT algorithms such as LoRA on various tasks, using fewer trainable parameters. We provide both empirical and theoretical explorations into the success of Random Masking. We show that masking induces a flatter loss landscape and more distant solutions, which allows for and necessitates large learning rates.
- Abstract(参考訳): 微調整の大きな言語モデル(LLM)はコストがかかる。
パラメータ効率の良い微調整(PEFT)は、パラメータのごく一部をトレーニングすることで問題に対処し、その成功は事前訓練されたモデルの表現性と柔軟性を明らかにする。
本稿では,PEFTの限界について検討し,その設計をさらに単純化し,標準設定を超えてトレーニング可能なパラメータの数を削減した。
この目的のために、事前訓練されたモデルを微調整するためにランダム・マスキング(Random Masking)を用いる。
その単純さにもかかわらず、Random Maskingは驚くほど効果的であることを示し、予測される学習率を大きくすることで、LoRAなどの標準的なPEFTアルゴリズムの性能にマッチし、トレーニング可能なパラメータを少なくする。
我々はランダム・マスキングの成功を実証的かつ理論的に探求する。
マスキングは, より平坦な損失環境と, より遠方にある解を誘導し, 学習速度を向上し, 必要となることを示す。
関連論文リスト
- MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models [91.4190318047519]
この研究は、大規模言語モデルにおける半構造化(あるいはN:M'')のスパーシティを確立する学習可能なプルーニング手法であるMaskLLMを紹介した。
MaskLLMはGumbel Softmaxサンプリングを通じて学習可能な分布としてN:Mパターンを明示的にモデル化する。
論文 参考訳(メタデータ) (2024-09-26T02:37:41Z) - Masks, Signs, And Learning Rate Rewinding [21.245849787139655]
反復的マグニチュード・プルーニング(IMP)の強力な変種としてLRR(Learning Rate Rewinding)が確立されている。
マスク学習とパラメータ最適化を両立させる実験を行った。
この仮説を支持するために、LRRがIMPよりも多くのケースで成功することを単純化された単一の隠れニューロン設定で証明する。
論文 参考訳(メタデータ) (2024-02-29T15:32:02Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - Breaking through Deterministic Barriers: Randomized Pruning Mask
Generation and Selection [29.375460634415806]
我々は大きなモデルを訓練し、その冗長なニューロンや重みを刈り取ることで除去する。
このアプローチはGLUEから8つのデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-19T22:32:51Z) - Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained
Vision-Language Models [89.07925369856139]
我々は,学習可能な選択によってネットワークパラメータをマスクする,正規化マスクチューニングと呼ばれる新しいタイプのチューニング手法を設計する。
神経経路にインスパイアされた我々は、下流タスクに必要な知識は、既にトレーニング済みの重みの中に存在するが、上流のトレーニング済みの段階では隠されていると論じる。
平均2.56%のパラメータをマスキングすることで、ゼロショットのCLIPと比較して18.73%のパフォーマンス改善を実現しています。
論文 参考訳(メタデータ) (2023-07-27T17:56:05Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Training Neural Networks with Fixed Sparse Masks [19.58969772430058]
最近の研究では、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることが示されている。
モデルのパラメータに固定されたスパースマスクを誘導し、サブセットを選択して複数のイテレーションで更新できることが示される。
論文 参考訳(メタデータ) (2021-11-18T18:06:01Z) - Masksembles for Uncertainty Estimation [60.400102501013784]
ディープニューラルネットワークは、その強みを巧みに実証しているが、その予測の信頼性を推定することは依然として困難である。
深層アンサンブルは不確かさを推定する最良の方法の1つと考えられているが、訓練や評価は非常に高価である。
mc-dropoutも人気の高い代替品で、安価だが信頼性も低い。
論文 参考訳(メタデータ) (2020-12-15T14:39:57Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。