Fugu-MT 論文翻訳(概要): Improving Deep Learning Optimization through Constrained Parameter Regularization

論文の概要: Improving Deep Learning Optimization through Constrained Parameter Regularization

arxiv url: http://arxiv.org/abs/2311.09058v3
Date: Sun, 13 Oct 2024 16:59:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 03:49:49.885983
Title: Improving Deep Learning Optimization through Constrained Parameter Regularization
Title（参考訳）: 制約パラメータ正規化によるディープラーニング最適化の改善
Authors: Jörg K. H. Franke, Michael Hefenbrock, Gregor Koehler, Frank Hutter,
Abstract要約: 本稿では、従来の重み劣化の代替として、制約付き正規化(CPR)を提案する。 CPRは、個々のパラメータのL$-normのような統計測度上の上限を強制する。 CPRは従来の重量減少よりも優れ、トレーニング前や微調整時の性能が向上する。
参考スコア（独自算出の注目度）: 39.581480654459455
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Regularization is a critical component in deep learning. The most commonly used approach, weight decay, applies a constant penalty coefficient uniformly across all parameters. This may be overly restrictive for some parameters, while insufficient for others. To address this, we present Constrained Parameter Regularization (CPR) as an alternative to traditional weight decay. Unlike the uniform application of a single penalty, CPR enforces an upper bound on a statistical measure, such as the L$_2$-norm, of individual parameter matrices. Consequently, learning becomes a constraint optimization problem, which we tackle using an adaptation of the augmented Lagrangian method. CPR introduces only a minor runtime overhead and only requires setting an upper bound. We propose simple yet efficient mechanisms for initializing this bound, making CPR rely on no hyperparameter or one, akin to weight decay. Our empirical studies on computer vision and language modeling tasks demonstrate CPR's effectiveness. The results show that CPR can outperform traditional weight decay and increase performance in pre-training and fine-tuning.
Abstract（参考訳）: 規則化はディープラーニングにおいて重要な要素である。最も一般的に用いられるアプローチである重み減衰は、全てのパラメータに対して一定のペナルティ係数を均一に適用する。これは一部のパラメータでは過度に制限されるが、他のパラメータでは不十分である。これを解決するために、従来の重み減衰の代替として制約パラメータ正規化(CPR)を提案する。単一ペナルティの均一な適用とは異なり、CPRは個々のパラメータ行列のL$_2$-normのような統計測度上の上限を強制する。その結果、学習は制約最適化問題となり、拡張ラグランジアン法の適用に取り組みます。 CPRは小さなランタイムオーバーヘッドしか導入せず、上限を設定するだけでよい。我々は、この境界を初期化するための単純かつ効率的なメカニズムを提案し、CPRは重み減衰と同様のハイパーパラメータや1つに依存しない。コンピュータビジョンと言語モデリングタスクに関する実証研究は,CPRの有効性を実証している。以上の結果から,CPRは従来の重量減少よりも優れ,事前学習や微調整における性能が向上することが示唆された。

関連論文リスト

High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。 textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文参考訳（メタデータ） (2026-01-12T13:06:17Z)
Regularized Low-Rank Adaptation for Few-Shot Organ Segmentation [17.875098424936542]
Low-Rank Adaptation (LoRA) は、低次元部分空間において適応が本質的に発生するという仮定に基づく顕著なアプローチである。本稿では,適応時の内因性階位を動的に調整する医用画像セグメンテーションのための新しいアプローチを提案する。提案手法は実写数発の微調整で評価され,まず標準のLoRAおよび他のPEFT法と比較する。
論文参考訳（メタデータ） (2025-07-21T16:51:53Z)
On the Role of Weight Decay in Collaborative Filtering: A Popularity Perspective [38.87580457343038]
CF (Collaborative Filtering) は, 歴史的ユーザ・イテムインタラクションからの情報を高密度ID埋め込みテーブルにエンコードすることで, 大規模レコメンデーションシステムを実現する。これらのパイプラインのコアコンポーネントの1つは非常に見過ごされている、と私たちは主張する。 PRISM(Popularity-awaRe Initialization Strategy for Embedd Magnitudes)を提案する。
論文参考訳（メタデータ） (2025-05-16T14:41:57Z)
Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Rethinking Weight Decay for Robust Fine-Tuning of Foundation Models [27.847140934456288]
本稿では,新しい重み劣化手法Selective Projection Decay (SPD)を提案する。 SPDは特定の層に強いペナルティを課し、他の層は自由に変更できる。 SPDを搭載した場合、Adamはベンチマーク上でより優れた分散ロバスト性とアウト・オブ・ディストリビュート性能を提供する。
論文参考訳（メタデータ） (2024-11-03T23:36:53Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
SVFit: Parameter-Efficient Fine-Tuning of Large Pre-Trained Models Using Singular Values [12.137869917556415]
大規模事前学習モデル(LPM)は、多種多様な自然言語処理やコンピュータビジョンタスクにおいて例外的な性能を示した。これらのモデルを完全に微調整すると、特にリソース制約のある環境では、大きなメモリの問題が発生します。本稿では,臨界特異値をトレーニング可能なパラメータとして用いた低ランク行列に対する特異値分解(SVD)を利用した新しいPEFT手法であるSVFitを提案する。
論文参考訳（メタデータ） (2024-09-09T08:44:53Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文参考訳（メタデータ） (2023-03-18T22:36:25Z)
Differentially Private Learning with Per-Sample Adaptive Clipping [8.401653565794353]
非単調適応重み関数に基づくDP-PSACアルゴリズムを提案する。 DP-PSACは,複数のメインストリームビジョンや言語タスクにおいて,最先端の手法よりも優れ,あるいは適合していることを示す。
論文参考訳（メタデータ） (2022-12-01T07:26:49Z)
META-STORM: Generalized Fully-Adaptive Variance Reduced SGD for Unbounded Functions [23.746620619512573]
最近の研究は「メガバッチ」の勾配を計算する効果を克服している作業は、競争力のあるディープラーニングタスクで更新された後に広く使用される。
論文参考訳（メタデータ） (2022-09-29T15:12:54Z)
Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。 Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文参考訳（メタデータ） (2022-05-23T02:43:45Z)
Efficient and Differentiable Conformal Prediction with General Function Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文参考訳（メタデータ） (2022-02-22T18:37:23Z)
Constrained Optimization for Training Deep Neural Networks Under Class Imbalance [9.557146081524008]
ROC曲線の下で最大領域を強制するために、既存の損失関数で使用できる新しい制約を紹介します。 CIFAR10と社内医療画像データセットを用いた画像分類アプリケーションの実験結果を提示する。
論文参考訳（メタデータ） (2021-02-21T09:49:36Z)
Rethinking the Hyperparameters for Fine-tuning [78.15505286781293]
事前訓練されたImageNetモデルからの微調整は、様々なコンピュータビジョンタスクのデファクトスタンダードとなっている。ファインチューニングの現在のプラクティスは、通常、ハイパーパラメータのアドホックな選択を選択することである。本稿では、微調整のためのハイパーパラメータの設定に関するいくつかの一般的なプラクティスを再検討する。
論文参考訳（メタデータ） (2020-02-19T18:59:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。