論文の概要: New Horizons in Parameter Regularization: A Constraint Approach
- arxiv url: http://arxiv.org/abs/2311.09058v1
- Date: Wed, 15 Nov 2023 15:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:16:50.381169
- Title: New Horizons in Parameter Regularization: A Constraint Approach
- Title(参考訳): パラメータ正規化の新しいホライズン:制約的アプローチ
- Authors: J\"org K.H. Franke, Michael Hefenbrock, Gregor Koehler, Frank Hutter
- Abstract要約: 制約パラメータ正規化(CPR)
CPRは伝統的な重量減少の代替である。
我々は,CPRの有効性を示す実証的な証拠を,"グロキング"現象の実験を通じて提示する。
- 参考スコア(独自算出の注目度): 41.055148686036176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents constrained parameter regularization (CPR), an alternative
to traditional weight decay. Instead of applying a constant penalty uniformly
to all parameters, we enforce an upper bound on a statistical measure (e.g.,
the L$_2$-norm) of individual parameter groups. This reformulates learning as a
constrained optimization problem. To solve this, we utilize an adaptation of
the augmented Lagrangian method. Our approach allows for varying regularization
strengths across different parameter groups, removing the need for explicit
penalty coefficients in the regularization terms. CPR only requires two
hyperparameters and introduces no measurable runtime overhead. We offer
empirical evidence of CPR's effectiveness through experiments in the "grokking"
phenomenon, image classification, and language modeling. Our findings show that
CPR can counteract the effects of grokking, and it consistently matches or
surpasses the performance of traditional weight decay.
- Abstract(参考訳): この研究は、伝統的な重み減衰に代わる制約パラメータ正規化(CPR)を示す。
すべてのパラメータに一定のペナルティを適用する代わりに、個々のパラメータ群の統計的測度(例えば、l$_2$-norm)の上界を強制する。
これは制約付き最適化問題として学習を再構成する。
これを解決するために、拡張ラグランジアン法の適応を利用する。
提案手法は, パラメータ群毎に異なる正規化強度を付与し, 正規化項の明示的なペナルティ係数を除去する。
CPRは2つのハイパーパラメータしか必要とせず、測定可能なランタイムオーバーヘッドを導入しない。
我々は,「グローキング」現象,画像分類,言語モデリングの実験を通して,cprの有効性を実証的に証明する。
以上の結果から,CPRはグルーキングの効果を抑えることができ,従来の重量減少性能と一貫して一致または上回っていることが明らかとなった。
関連論文リスト
- Rethinking Weight Decay for Robust Fine-Tuning of Foundation Models [27.847140934456288]
本稿では,新しい重み劣化手法Selective Projection Decay (SPD)を提案する。
SPDは特定の層に強いペナルティを課し、他の層は自由に変更できる。
SPDを搭載した場合、Adamはベンチマーク上でより優れた分散ロバスト性とアウト・オブ・ディストリビュート性能を提供する。
論文 参考訳(メタデータ) (2024-11-03T23:36:53Z) - SVFit: Parameter-Efficient Fine-Tuning of Large Pre-Trained Models Using Singular Values [12.137869917556415]
大規模事前学習モデル(LPM)は、多種多様な自然言語処理やコンピュータビジョンタスクにおいて例外的な性能を示した。
これらのモデルを完全に微調整すると、特にリソース制約のある環境では、大きなメモリの問題が発生します。
本稿では,臨界特異値をトレーニング可能なパラメータとして用いた低ランク行列に対する特異値分解(SVD)を利用した新しいPEFT手法であるSVFitを提案する。
論文 参考訳(メタデータ) (2024-09-09T08:44:53Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - Differentially Private Learning with Per-Sample Adaptive Clipping [8.401653565794353]
非単調適応重み関数に基づくDP-PSACアルゴリズムを提案する。
DP-PSACは,複数のメインストリームビジョンや言語タスクにおいて,最先端の手法よりも優れ,あるいは適合していることを示す。
論文 参考訳(メタデータ) (2022-12-01T07:26:49Z) - META-STORM: Generalized Fully-Adaptive Variance Reduced SGD for
Unbounded Functions [23.746620619512573]
最近の研究は「メガバッチ」の勾配を計算する効果を克服している
作業は、競争力のあるディープラーニングタスクで更新された後に広く使用される。
論文 参考訳(メタデータ) (2022-09-29T15:12:54Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - Rethinking the Hyperparameters for Fine-tuning [78.15505286781293]
事前訓練されたImageNetモデルからの微調整は、様々なコンピュータビジョンタスクのデファクトスタンダードとなっている。
ファインチューニングの現在のプラクティスは、通常、ハイパーパラメータのアドホックな選択を選択することである。
本稿では、微調整のためのハイパーパラメータの設定に関するいくつかの一般的なプラクティスを再検討する。
論文 参考訳(メタデータ) (2020-02-19T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。