Fugu-MT 論文翻訳(概要): H-Fac: Memory-Efficient Optimization with Factorized Hamiltonian Descent

論文の概要: H-Fac: Memory-Efficient Optimization with Factorized Hamiltonian Descent

arxiv url: http://arxiv.org/abs/2406.09958v1
Date: Fri, 14 Jun 2024 12:05:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 13:55:15.669693
Title: H-Fac: Memory-Efficient Optimization with Factorized Hamiltonian Descent
Title（参考訳）: H-Fac:Factized Hamiltonian Descentによるメモリ効率の最適化
Authors: Son Nguyen, Lizhang Chen, Bo Liu, Qiang Liu,
Abstract要約: モーメントとスケーリングパラメータに対する因子的アプローチを取り入れたH-Facを開発した。提案アルゴリズムは,ResNetとVision Transformerの競合性能を示す。これらの最適化アルゴリズムは、単純で適応性があり、多様な設定で容易に実装できるように設計されている。
参考スコア（独自算出の注目度）: 11.01832755213396
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this study, we introduce a novel adaptive optimizer, H-Fac, which incorporates a factorized approach to momentum and scaling parameters. Our algorithm demonstrates competitive performances on both ResNets and Vision Transformers, while achieving sublinear memory costs through the use of rank-1 parameterizations for moment estimators. We develop our algorithms based on principles derived from Hamiltonian dynamics, providing robust theoretical underpinnings. These optimization algorithms are designed to be both straightforward and adaptable, facilitating easy implementation in diverse settings.
Abstract（参考訳）: 本研究では,モーメントとスケーリングパラメータに対する因子的アプローチを取り入れた適応最適化器H-Facを提案する。本稿では,ResNetとVision Transformerの競合性能を示すとともに,モーメント推定器のランク1パラメータ化によるサブ線形メモリコストを実現する。我々はハミルトン力学の原理に基づいてアルゴリズムを開発し、ロバストな理論的基盤を提供する。これらの最適化アルゴリズムは、単純で適応性があり、多様な設定で容易に実装できるように設計されている。

関連論文リスト

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation [57.57816409869894]
大規模言語モデルをトレーニングするためのスケーラブルでメモリ効率のよい変種であるPOET-Xを紹介する。 PoET-Xは、スループットとメモリ効率を大幅に改善しながら、PoETの一般化と安定性の利点を維持している。
論文参考訳（メタデータ） (2026-03-05T18:59:23Z)
Optimizing Optimizers for Fast Gradient-Based Learning [53.81268610971847]
勾配学習における設計の自動化に関する理論的基礎を築いた。勾配損失信号をパラメータ運動に変換する関数として扱うことにより、この問題は凸最適化問題の族に還元される。
論文参考訳（メタデータ） (2025-12-06T09:50:41Z)
Dynamically Weighted Momentum with Adaptive Step Sizes for Efficient Deep Network Training [6.320135812353531]
本稿ではDWM DWMGradという新しいディープラーニングアルゴリズムを提案する。歴史的データに依存する動的メカニズムを組み込んで、運動量学習率を動的に更新する。
論文参考訳（メタデータ） (2025-10-29T00:03:03Z)
Adaptive Memory Momentum via a Model-Based Framework for Deep Learning Optimization [10.325245543844245]
定常運動量係数を動的運動量係数に置き換えるテクスチマタテプティブメモリ機構を導入する。我々はSGDとAdamWの両方の適応型メモリを幅広い学習タスクで実装する。私たちの仕事は、最適化において適応性を誘導する新しい方法の扉を開く。
論文参考訳（メタデータ） (2025-10-06T16:24:57Z)
Slice-Wise Initial State Optimization to Improve Cost and Accuracy of the VQE on Lattice Models [0.0]
本稿では,適応型および物理インスピレーション型アンザッツ設計を組み合わせた変分量子固有解器(VQE)の最適化手法を提案する。この準力学的アプローチは、演算子選択のオーバーヘッドを回避しつつ、表現性とハードウェア効率を保っている。最大20キュービットの1次元および2次元ハイゼンベルクおよびハバードモデルのベンチマークでは、固定層VQEと比較して、忠実度の改善、機能評価の削減、あるいはその両方が示されている。
論文参考訳（メタデータ） (2025-09-16T12:52:23Z)
Architect Your Landscape Approach (AYLA) for Optimizations in Deep Learning [0.0]
グラディエントDescent(DSG)とその変種(ADAMなど)はディープラーニングの最適化の基礎となっている。本稿では適応性と効率性を向上する新しい最適化手法であるAYLAを紹介する。
論文参考訳（メタデータ） (2025-04-02T16:31:39Z)
COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [81.01082659623552]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文参考訳（メタデータ） (2025-02-24T18:42:19Z)
A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文参考訳（メタデータ） (2024-10-14T12:10:06Z)
Adaptive Friction in Deep Learning: Enhancing Optimizers with Sigmoid and Tanh Function [0.0]
我々は適応摩擦係数を統合する2つの新しい勾配であるsigSignGradとtanhSignGradを紹介する。我々の理論解析は,摩擦係数Sの広帯域調整能力を示す。 ResNet50 と ViT アーキテクチャを用いた CIFAR-10, Mini-Image-Net 実験により,提案手法の優れた性能が確認された。
論文参考訳（メタデータ） (2024-08-07T03:20:46Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
Efficient Inverse Design Optimization through Multi-fidelity Simulations, Machine Learning, and Search Space Reduction Strategies [0.8646443773218541]
本稿では,限られた計算量で制約されたシナリオにおける逆設計最適化プロセスの拡張を目的とした手法を提案する。提案手法はエアフォイル逆設計とスカラーフィールド再構成の2つの異なる工学的逆設計問題について解析する。特に、この方法は、任意の逆設計アプリケーションに適用可能であり、代表的低忠実MLモデルと高忠実度シミュレーションの相乗効果を容易にし、様々な集団ベース最適化アルゴリズムにシームレスに適用することができる。
論文参考訳（メタデータ） (2023-12-06T18:20:46Z)
Fine-Tuning Adaptive Stochastic Optimizers: Determining the Optimal Hyperparameter $ε$ via Gradient Magnitude Histogram Analysis [0.7366405857677226]
我々は、損失の大きさの経験的確率密度関数に基づく新しい枠組みを導入し、これを「緩やかな等級ヒストグラム」と呼ぶ。そこで本稿では, 最適安全のための精密かつ高精度な探索空間を自動推定するために, 勾配等級ヒストグラムを用いた新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-11-20T04:34:19Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
CAME: Confidence-guided Adaptive Memory Efficient Optimization [20.009302737137787]
適応勾配法は大規模言語モデルの訓練において優れた性能を示した。二次モーメント推定の維持には、メモリオーバーヘッドの増大を高いコストで維持する必要がある。補助メモリ使用量の大幅な削減を実現するために、いくつかのメモリ効率が提案されているが、性能上のペナルティがある。我々は,従来の適応手法のように高速収束,メモリ効率の低い2つの目標を同時に達成するために,CAMEを提案する。
論文参考訳（メタデータ） (2023-07-05T06:05:36Z)
Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。 RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文参考訳（メタデータ） (2021-02-15T19:36:18Z)
Particle Swarm Optimization: Fundamental Study and its Application to Optimization and to Jetty Scheduling Problems [0.0]
従来の手法に関する進化的アルゴリズムの利点は、文献で大いに議論されている。粒子群はそのような利点を共有しているが、計算コストの低減と実装の容易さが要求されるため、進化的アルゴリズムよりも優れている。本論文は, それらのチューニングについて検討するものではなく, 従来の研究から汎用的な設定を抽出し, 様々な問題を最適化するために, 事実上同じアルゴリズムを用いている。
論文参考訳（メタデータ） (2021-01-25T02:06:30Z)
Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文参考訳（メタデータ） (2020-10-01T18:14:11Z)
Automatically Learning Compact Quality-aware Surrogates for Optimization Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文参考訳（メタデータ） (2020-06-18T19:11:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。