論文の概要: A Hessian-informed hyperparameter optimization for differential learning rate
- arxiv url: http://arxiv.org/abs/2501.06954v1
- Date: Sun, 12 Jan 2025 22:21:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:23:04.556805
- Title: A Hessian-informed hyperparameter optimization for differential learning rate
- Title(参考訳): ヘシアンインフォームドハイパーパラメータによる差分学習率の最適化
- Authors: Shiyun Xu, Zhiqi Bu, Yiliang Zhang, Ian Barnett,
- Abstract要約: Hessian-informed differential learning rate (Hi-DLR)は、異なるモデルパラメータに異なる学習率を適用する手法である。
ハイDLRは、トレーニング中の学習率を動的に決定することで収束を改善することができる。
また、様々なフルモデルトレーニングタスクで同等のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 10.43211367988483
- License:
- Abstract: Differential learning rate (DLR), a technique that applies different learning rates to different model parameters, has been widely used in deep learning and achieved empirical success via its various forms. For example, parameter-efficient fine-tuning (PEFT) applies zero learning rates to most parameters so as to significantly save the computational cost. At the core, DLR leverages the observation that different parameters can have different loss curvature, which is hard to characterize in general. We propose the Hessian-informed differential learning rate (Hi-DLR), an efficient approach that solves the hyperparameter optimization (HPO) of learning rates and captures the loss curvature for any model and optimizer adaptively. Given a proper grouping of parameters, we empirically demonstrate that Hi-DLR can improve the convergence by dynamically determining the learning rates during the training. Furthermore, we can quantify the influence of different parameters and freeze the less-contributing parameters, which leads to a new PEFT that automatically adapts to various tasks and models. Additionally, Hi-DLR also exhibits comparable performance on various full model training tasks.
- Abstract(参考訳): 異なるモデルパラメータに異なる学習率を適用する技術である差分学習率(DLR)は、深層学習において広く用いられ、様々な形態で経験的な成功を遂げている。
例えば、パラメータ効率の細かいチューニング(PEFT)は、計算コストを大幅に削減するために、ほとんどのパラメータにゼロの学習率を適用する。
中心となるDLRは、異なるパラメータが異なる損失曲率を持つことができるという観察を利用しており、一般には特徴付けが難しい。
学習速度のハイパーパラメータ最適化(HPO)を解き,任意のモデルと最適化器の損失曲率を適応的にキャプチャする手法として,Hessian-informed differential learning rate (Hi-DLR)を提案する。
パラメータの適切なグループ化を前提として,Hi-DLRはトレーニング中の学習率を動的に決定することで収束性を向上させることを実証的に示す。
さらに、異なるパラメータの影響を定量化し、より少ないパラメータを凍結することで、様々なタスクやモデルに自動的に適応する新しいPEFTを実現することができる。
さらに、Hi-DLRは様々なフルモデルトレーニングタスクで同等のパフォーマンスを示す。
関連論文リスト
- ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - A Method for Evaluating Hyperparameter Sensitivity in Reinforcement Learning [11.929813643723413]
本研究は,ハイパーパラメータチューニングに対するアルゴリズム性能の感度を研究,比較,定量化するための新しい経験的手法を提案する。
その結果、アルゴリズムの性能改善は、実際にはハイパーパラメータチューニングへの依存度が増大した結果である可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-10T03:55:18Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Hyperparameter Tuning for Causal Inference with Double Machine Learning:
A Simulation Study [4.526082390949313]
機械学習手法の予測性能と結果の因果推定との関係を実証的に評価する。
我々は,2019 Atlantic Causal Inference Conference Data Challengeのデータを用いて,広範囲にわたるシミュレーション研究を行う。
論文 参考訳(メタデータ) (2024-02-07T09:01:51Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for
Training Large Transformer Models [132.90062129639705]
本稿では,全てのパラメータを十分に訓練するための新しいトレーニング戦略を提案する。
感度の低いパラメータは冗長であり、学習率を高めて適合性を改善する。
対照的に、高い感度を持つパラメータを十分に訓練し、学習率を下げて正規化することで、さらなる過度なオーバーフィッティングを防止する。
論文 参考訳(メタデータ) (2022-02-06T00:22:28Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。