論文の概要: Memory-Efficient Optimization with Factorized Hamiltonian Descent
- arxiv url: http://arxiv.org/abs/2406.09958v3
- Date: Thu, 17 Oct 2024 06:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:16:07.058042
- Title: Memory-Efficient Optimization with Factorized Hamiltonian Descent
- Title(参考訳): 因子化ハミルトニアン蛍光を用いたメモリ効率の最適化
- Authors: Son Nguyen, Lizhang Chen, Bo Liu, Qiang Liu,
- Abstract要約: 本稿では,この課題に対処するためのメモリ効率因子化手法を取り入れた新しい適応型H-Facを提案する。
運動量とスケーリングパラメータ推定器の両方にランク1パラメータ化を適用することで、H-Facはメモリコストをサブ線形レベルに削減する。
我々はハミルトン力学から導かれる原理に基づいてアルゴリズムを開発し、最適化力学と収束保証において堅牢な理論的基盤を提供する。
- 参考スコア(独自算出の注目度): 11.01832755213396
- License:
- Abstract: Modern deep learning heavily depends on adaptive optimizers such as Adam and its variants, which are renowned for their capacity to handle model scaling and streamline hyperparameter tuning. However, these algorithms typically experience high memory overhead caused by the accumulation of optimization states, leading to a critical challenge in training large-scale network models. In this study, we introduce a novel adaptive optimizer, H-Fac, which incorporates a memory-efficient factorization approach to address this challenge. By employing a rank-1 parameterization for both momentum and scaling parameter estimators, H-Fac reduces memory costs to a sublinear level while maintaining competitive performance across a wide range of architectures. We develop our algorithms based on principles derived from Hamiltonian dynamics, providing robust theoretical underpinnings in optimization dynamics and convergence guarantees. These optimization algorithms are designed to be both straightforward and adaptable, facilitating easy implementation in diverse settings.
- Abstract(参考訳): 現代のディープラーニングは、モデルスケーリングと平滑なハイパーパラメータチューニングを扱う能力で有名であるAdamやその変種のような適応型オプティマイザに大きく依存している。
しかし、これらのアルゴリズムは最適化状態の蓄積によるメモリオーバーヘッドが高く、大規模なネットワークモデルのトレーニングにおいて重要な課題となる。
本研究では,この課題に対処するために,メモリ効率の因子化手法を取り入れた新しい適応型最適化器H-Facを提案する。
H-Facは、運動量とスケーリングパラメータ推定器の両方にランク1パラメータ化を適用することにより、幅広いアーキテクチャで競合性能を維持しながら、メモリコストをサブ線形レベルに削減する。
我々はハミルトン力学から導かれる原理に基づいてアルゴリズムを開発し、最適化力学と収束保証において堅牢な理論的基盤を提供する。
これらの最適化アルゴリズムは、単純で適応性があり、多様な設定で容易に実装できるように設計されている。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Adaptive Friction in Deep Learning: Enhancing Optimizers with Sigmoid and Tanh Function [0.0]
我々は適応摩擦係数を統合する2つの新しい勾配であるsigSignGradとtanhSignGradを紹介する。
我々の理論解析は,摩擦係数Sの広帯域調整能力を示す。
ResNet50 と ViT アーキテクチャを用いた CIFAR-10, Mini-Image-Net 実験により,提案手法の優れた性能が確認された。
論文 参考訳(メタデータ) (2024-08-07T03:20:46Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Efficient Inverse Design Optimization through Multi-fidelity Simulations, Machine Learning, and Search Space Reduction Strategies [0.8646443773218541]
本稿では,限られた計算量で制約されたシナリオにおける逆設計最適化プロセスの拡張を目的とした手法を提案する。
提案手法はエアフォイル逆設計とスカラーフィールド再構成の2つの異なる工学的逆設計問題について解析する。
特に、この方法は、任意の逆設計アプリケーションに適用可能であり、代表的低忠実MLモデルと高忠実度シミュレーションの相乗効果を容易にし、様々な集団ベース最適化アルゴリズムにシームレスに適用することができる。
論文 参考訳(メタデータ) (2023-12-06T18:20:46Z) - Fine-Tuning Adaptive Stochastic Optimizers: Determining the Optimal Hyperparameter $ε$ via Gradient Magnitude Histogram Analysis [0.7366405857677226]
我々は、損失の大きさの経験的確率密度関数に基づく新しい枠組みを導入し、これを「緩やかな等級ヒストグラム」と呼ぶ。
そこで本稿では, 最適安全のための精密かつ高精度な探索空間を自動推定するために, 勾配等級ヒストグラムを用いた新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T04:34:19Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - CAME: Confidence-guided Adaptive Memory Efficient Optimization [20.009302737137787]
適応勾配法は大規模言語モデルの訓練において優れた性能を示した。
二次モーメント推定の維持には、メモリオーバーヘッドの増大を高いコストで維持する必要がある。
補助メモリ使用量の大幅な削減を実現するために、いくつかのメモリ効率が提案されているが、性能上のペナルティがある。
我々は,従来の適応手法のように高速収束,メモリ効率の低い2つの目標を同時に達成するために,CAMEを提案する。
論文 参考訳(メタデータ) (2023-07-05T06:05:36Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z) - Particle Swarm Optimization: Fundamental Study and its Application to
Optimization and to Jetty Scheduling Problems [0.0]
従来の手法に関する進化的アルゴリズムの利点は、文献で大いに議論されている。
粒子群はそのような利点を共有しているが、計算コストの低減と実装の容易さが要求されるため、進化的アルゴリズムよりも優れている。
本論文は, それらのチューニングについて検討するものではなく, 従来の研究から汎用的な設定を抽出し, 様々な問題を最適化するために, 事実上同じアルゴリズムを用いている。
論文 参考訳(メタデータ) (2021-01-25T02:06:30Z) - Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。
我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。
すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文 参考訳(メタデータ) (2020-10-01T18:14:11Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。