論文の概要: A Hessian-informed hyperparameter optimization for differential learning rate
- arxiv url: http://arxiv.org/abs/2501.06954v2
- Date: Sun, 18 May 2025 15:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 17:08:51.845151
- Title: A Hessian-informed hyperparameter optimization for differential learning rate
- Title(参考訳): ヘシアンインフォームドハイパーパラメータによる差分学習率の最適化
- Authors: Shiyun Xu, Zhiqi Bu, Yiliang Zhang, Ian Barnett,
- Abstract要約: Hessian-informed differential learning rate (Hi-DLR)は、異なるモデルパラメータに異なる学習率を適用する手法である。
トレーニング中の学習率を動的に決定することで,Hi-DLRは収束性を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 10.43211367988483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differential learning rate (DLR), a technique that applies different learning rates to different model parameters, has been widely used in deep learning and achieved empirical success via its various forms. For example, parameter-efficient fine-tuning (PEFT) applies zero learning rates to most parameters so as to significantly save the computational cost. At the core, DLR leverages the observation that different parameters can have different loss curvature, which is hard to characterize in general. We propose the Hessian-informed differential learning rate (Hi-DLR), an efficient approach that solves the hyperparameter optimization (HPO) of learning rates and captures the loss curvature for any model and optimizer adaptively. Given a proper grouping of parameters, we empirically demonstrate that Hi-DLR can improve the convergence by dynamically determining the learning rates during the training.
- Abstract(参考訳): 異なるモデルパラメータに異なる学習率を適用する技術である差分学習率(DLR)は、深層学習において広く用いられ、様々な形態で経験的な成功を遂げている。
例えば、パラメータ効率の細かいチューニング(PEFT)は、計算コストを大幅に削減するために、ほとんどのパラメータにゼロの学習率を適用する。
中心となるDLRは、異なるパラメータが異なる損失曲率を持つことができるという観察を利用しており、一般には特徴付けが難しい。
学習速度のハイパーパラメータ最適化(HPO)を解き,任意のモデルと最適化器の損失曲率を適応的に捉える手法として,Hessian-informed differential learning rate (Hi-DLR)を提案する。
パラメータの適切なグループ化を前提として,Hi-DLRはトレーニング中の学習率を動的に決定することで収束性を向上させることを実証的に示す。
関連論文リスト
- Advantageous Parameter Expansion Training Makes Better Large Language Models [50.82647159657912]
パラメータのサブセットは、有利なパラメータと呼ばれ、モデルの性能を決定する上で重要な役割を果たす。
本稿では,有利なパラメータを不利なパラメータの空間に段階的に拡張する手法であるAdvantageous Expansion Training (APEX)を提案する。
APEXは、トレーニングデータのわずか33%で、従来のトレーニングと同じ難易度レベルに達し、下流タスクに大幅な改善をもたらす。
論文 参考訳(メタデータ) (2025-05-30T06:06:23Z) - Hyperparameter Optimisation with Practical Interpretability and Explanation Methods in Probabilistic Curriculum Learning [2.5352713493505785]
確率的カリキュラム学習(英: Probabilistic Curriculum Learning, PCL)は、エージェントの学習過程を構造化することにより、RLの性能を向上させるためのカリキュラム学習戦略である。
本稿では,超パラメータ相互作用の実証分析を行い,PCLアルゴリズムの性能に及ぼす効果について述べる。
論文 参考訳(メタデータ) (2025-04-09T08:41:27Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - A Method for Evaluating Hyperparameter Sensitivity in Reinforcement Learning [11.929813643723413]
本研究は,ハイパーパラメータチューニングに対するアルゴリズム性能の感度を研究,比較,定量化するための新しい経験的手法を提案する。
その結果、アルゴリズムの性能改善は、実際にはハイパーパラメータチューニングへの依存度が増大した結果である可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-10T03:55:18Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Diffusion Tempering Improves Parameter Estimation with Probabilistic Integrators for Ordinary Differential Equations [34.500484733973536]
通常微分方程式(ODE)は科学の力学系を記述するために広く用いられているが、実験的な測定を説明するパラメータを特定することは困難である。
本稿では,ODEにおける勾配に基づくパラメータ最適化の収束性を改善する確率的数値法の新しい正規化手法である拡散テンパリングを提案する。
本手法は複雑性の異なる力学系に対して有効であることを示すとともに,実際に関連するパラメータ数を持つHodgkin-Huxleyモデルに対して,信頼性の高いパラメータ推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:36:36Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - Improving Hyperparameter Learning under Approximate Inference in
Gaussian Process Models [18.134776677795077]
本研究では,変分推論(VI)と学習目標との相互作用に着目した。
我々は、共役計算VIを推論に利用するハイブリッドトレーニング手順を設計する。
我々は、幅広いデータセットで提案の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-06-07T07:15:08Z) - No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for
Training Large Transformer Models [132.90062129639705]
本稿では,全てのパラメータを十分に訓練するための新しいトレーニング戦略を提案する。
感度の低いパラメータは冗長であり、学習率を高めて適合性を改善する。
対照的に、高い感度を持つパラメータを十分に訓練し、学習率を下げて正規化することで、さらなる過度なオーバーフィッティングを防止する。
論文 参考訳(メタデータ) (2022-02-06T00:22:28Z) - Learning to Refit for Convex Learning Problems [11.464758257681197]
ニューラルネットワークを用いて、異なるトレーニングセットに対して最適化されたモデルパラメータを推定するフレームワークを提案する。
我々は、凸問題を近似するためにニューラルネットワークのパワーを厳格に特徴づける。
論文 参考訳(メタデータ) (2021-11-24T15:28:50Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。