論文の概要: Architect Your Landscape Approach (AYLA) for Optimizations in Deep Learning
- arxiv url: http://arxiv.org/abs/2504.01875v1
- Date: Wed, 02 Apr 2025 16:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:20:02.832506
- Title: Architect Your Landscape Approach (AYLA) for Optimizations in Deep Learning
- Title(参考訳): ディープラーニングの最適化のためのランドスケープアプローチ(AYLA)の設計
- Authors: Ben Keslaki,
- Abstract要約: グラディエントDescent(DSG)とその変種(ADAMなど)はディープラーニングの最適化の基礎となっている。
本稿では適応性と効率性を向上する新しい最適化手法であるAYLAを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Stochastic Gradient Descent (SGD) and its variants, such as ADAM, are foundational to deep learning optimization, adjusting model parameters using fixed or adaptive learning rates based on loss function gradients. However, these methods often face challenges in balancing adaptability and efficiency in non-convex, high-dimensional settings. This paper introduces AYLA, a novel optimization technique that enhances training dynamics through loss function transformations. By applying a tunable power-law transformation, AYLA preserves critical points while scaling loss values to amplify gradient sensitivity, accelerating convergence. We further propose a dynamic (effective) learning rate that adapts to the transformed loss, improving optimization efficiency. Empirical tests on finding minimum of a synthetic non-convex polynomial, a non-convex curve-fitting dataset, and digit classification (MNIST) demonstrate that AYLA surpasses SGD and ADAM in convergence speed and stability. This approach redefines the loss landscape for better optimization outcomes, offering a promising advancement for deep neural networks and can be applied to any optimization method and potentially improve the performance of it.
- Abstract(参考訳): 確率勾配(SGD)とその変種(ADAMなど)は、損失関数勾配に基づいて、固定的あるいは適応的な学習率を用いてモデルパラメータを調整する深層学習最適化の基礎となる。
しかしながら、これらの手法は、非凸で高次元の設定における適応性と効率のバランスをとる上でしばしば困難に直面する。
本稿では、損失関数変換によるトレーニングダイナミクスを強化する新しい最適化手法であるAYLAを紹介する。
調整可能なパワーロー変換を適用することで、AYLAは損失値をスケーリングしながら臨界点を保持し、勾配感度を増幅し、収束を加速する。
さらに、変換された損失に適応し、最適化効率を向上させる動的(効果的な)学習率を提案する。
合成非凸多項式、非凸曲線適合データセット、および数値分類(MNIST)の最小値を求める実証実験により、AYLAは収束速度と安定性においてSGDとADAMを上回っていることが示された。
このアプローチは、より優れた最適化結果を得るためにロスランドスケープを再定義し、ディープニューラルネットワークの有望な進歩を提供し、任意の最適化手法に適用でき、潜在的にパフォーマンスを向上させることができる。
関連論文リスト
- Revisiting the Initial Steps in Adaptive Gradient Descent Optimization [6.468625143772815]
Adamのような適応的な勾配最適化手法は、さまざまな機械学習タスクにわたるディープニューラルネットワークのトレーニングで広く使われている。
これらの手法は、降下勾配 (SGD) と比較して最適下一般化に苦しむことが多く、不安定性を示す。
非ゼロ値で2階モーメント推定を初期化する。
論文 参考訳(メタデータ) (2024-12-03T04:28:14Z) - WarpAdam: A new Adam optimizer based on Meta-Learning approach [0.0]
本研究ではメタラーニングからAdamへの'ウォード勾配下降'の概念を融合させる革新的なアプローチを紹介する。
適応行列 P 内に学習可能な歪み行列 P を導入することにより,多様なデータ分布にまたがるモデルの能力を高めることを目指す。
本研究は,理論的洞察と実証的評価を通じて,この新たなアプローチの可能性を示すものである。
論文 参考訳(メタデータ) (2024-09-06T12:51:10Z) - Adaptive Friction in Deep Learning: Enhancing Optimizers with Sigmoid and Tanh Function [0.0]
我々は適応摩擦係数を統合する2つの新しい勾配であるsigSignGradとtanhSignGradを紹介する。
我々の理論解析は,摩擦係数Sの広帯域調整能力を示す。
ResNet50 と ViT アーキテクチャを用いた CIFAR-10, Mini-Image-Net 実験により,提案手法の優れた性能が確認された。
論文 参考訳(メタデータ) (2024-08-07T03:20:46Z) - Memory-Efficient Optimization with Factorized Hamiltonian Descent [11.01832755213396]
本稿では,この課題に対処するためのメモリ効率因子化手法を取り入れた新しい適応型H-Facを提案する。
運動量とスケーリングパラメータ推定器の両方にランク1パラメータ化を適用することで、H-Facはメモリコストをサブ線形レベルに削減する。
我々はハミルトン力学から導かれる原理に基づいてアルゴリズムを開発し、最適化力学と収束保証において堅牢な理論的基盤を提供する。
論文 参考訳(メタデータ) (2024-06-14T12:05:17Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - An Empirical Evaluation of Zeroth-Order Optimization Methods on
AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。
ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。
本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文 参考訳(メタデータ) (2022-10-27T01:58:10Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - An adaptive stochastic gradient-free approach for high-dimensional
blackbox optimization [0.0]
本研究では,高次元非平滑化問題に対する適応勾配フリー (ASGF) アプローチを提案する。
本稿では,グローバルな問題と学習タスクのベンチマークにおいて,本手法の性能について述べる。
論文 参考訳(メタデータ) (2020-06-18T22:47:58Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。