論文の概要: Enhancing Fractional Gradient Descent with Learned Optimizers
- arxiv url: http://arxiv.org/abs/2510.18783v1
- Date: Tue, 21 Oct 2025 16:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.927833
- Title: Enhancing Fractional Gradient Descent with Learned Optimizers
- Title(参考訳): 学習オプティマイザを用いたフラクショナルグラディエント・ディフレッシュの強化
- Authors: Jan Sobotka, Petr Šimánek, Pavel Kordík,
- Abstract要約: Fractional Gradient Descent (FGD)は、分数計算を機械学習に組み込むことで最適化を加速する、新しくて有望な方法を提供する。
本手法のメタ学習性能は, 完全にブラックボックスでメタラーニングしたメタラーニング性能に匹敵する。
L2O-CFGDは研究者にとって強力なツールとなる。
- 参考スコア(独自算出の注目度): 3.3900431852643114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fractional Gradient Descent (FGD) offers a novel and promising way to accelerate optimization by incorporating fractional calculus into machine learning. Although FGD has shown encouraging initial results across various optimization tasks, it faces significant challenges with convergence behavior and hyperparameter selection. Moreover, the impact of its hyperparameters is not fully understood, and scheduling them is particularly difficult in non-convex settings such as neural network training. To address these issues, we propose a novel approach called Learning to Optimize Caputo Fractional Gradient Descent (L2O-CFGD), which meta-learns how to dynamically tune the hyperparameters of Caputo FGD (CFGD). Our method's meta-learned schedule outperforms CFGD with static hyperparameters found through an extensive search and, in some tasks, achieves performance comparable to a fully black-box meta-learned optimizer. L2O-CFGD can thus serve as a powerful tool for researchers to identify high-performing hyperparameters and gain insights on how to leverage the history-dependence of the fractional differential in optimization.
- Abstract(参考訳): Fractional Gradient Descent (FGD)は、分数計算を機械学習に組み込むことで最適化を加速する、新しくて有望な方法を提供する。
FGDは様々な最適化タスクで初期結果を奨励しているが、収束挙動とハイパーパラメータ選択において大きな課題に直面している。
さらに、ハイパーパラメータの影響は完全には理解されておらず、ニューラルネットワークトレーニングのような非凸設定では、スケジューリングが特に難しい。
これらの課題に対処するため,我々は,L2O-CFGD (Learning to Optimize Caputo Fractional Gradient Descent) という新しい手法を提案する。
提案手法のメタ学習スケジュールは,広範囲な探索によって検出される静的ハイパーパラメータでCFGDより優れており,一部タスクでは,完全にブラックボックスのメタ学習最適化に匹敵する性能を実現する。
したがって、L2O-CFGDはハイパフォーマンスなハイパーパラメータを同定し、最適化における分数差の履歴依存性を活用する方法についての洞察を得るための強力なツールとなる。
関連論文リスト
- AYLA: Amplifying Gradient Sensitivity via Loss Transformation in Non-Convex Optimization [0.0]
Gradient Descent (SGD)とその変種(ADAMなど)はディープラーニングの最適化の基礎となっている。
本稿では、動的トレーニングを強化する新しいフレームワークであるAYLAを紹介する。
論文 参考訳(メタデータ) (2025-04-02T16:31:39Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Adaptive Friction in Deep Learning: Enhancing Optimizers with Sigmoid and Tanh Function [0.0]
我々は適応摩擦係数を統合する2つの新しい勾配であるsigSignGradとtanhSignGradを紹介する。
我々の理論解析は,摩擦係数Sの広帯域調整能力を示す。
ResNet50 と ViT アーキテクチャを用いた CIFAR-10, Mini-Image-Net 実験により,提案手法の優れた性能が確認された。
論文 参考訳(メタデータ) (2024-08-07T03:20:46Z) - Edge-Efficient Deep Learning Models for Automatic Modulation Classification: A Performance Analysis [0.7428236410246183]
無線信号の自動変調分類(AMC)のための最適化畳み込みニューラルネットワーク(CNN)について検討した。
本稿では,これらの手法を組み合わせて最適化モデルを提案する。
実験結果から,提案手法と組み合わせ最適化手法は,複雑度が著しく低いモデルの開発に極めて有効であることが示唆された。
論文 参考訳(メタデータ) (2024-04-11T06:08:23Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - An Empirical Evaluation of Zeroth-Order Optimization Methods on
AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。
ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。
本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文 参考訳(メタデータ) (2022-10-27T01:58:10Z) - Meta-Learning to Improve Pre-Training [38.75981465367226]
プレトレーニング(PT)とファインチューニング(FT)は、ニューラルネットワークのトレーニングに有効な方法である。
PTは、タスクとデータ再重み付け戦略、拡張ポリシー、ノイズモデルなど、さまざまな設計選択を組み込むことができる。
メタ学習型PTハイパーパラメータに対する効率よく勾配に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-02T17:26:50Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。