Fugu-MT 論文翻訳(概要): AlphaAdam:Asynchronous Masked Optimization with Dynamic Alpha for Selective Updates

論文の概要: AlphaAdam:Asynchronous Masked Optimization with Dynamic Alpha for Selective Updates

arxiv url: http://arxiv.org/abs/2501.18094v1
Date: Thu, 30 Jan 2025 02:10:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:04.01102
Title: AlphaAdam:Asynchronous Masked Optimization with Dynamic Alpha for Selective Updates
Title（参考訳）: AlphaAdam:選択更新のための動的アルファを用いた非同期マスク最適化
Authors: Da Chang, Yu Li, Ganzhao Yuan,
Abstract要約: 大規模言語モデル(LLM)の最適化フレームワークであるAlphaAdamを提案する。パラメータの更新を分離し、その強度を動的に調整することで、AlphaAdamは収束を加速し、トレーニングの安定性を向上させる。私たちのコードは、このhrefhttps://github.com/MaeChd/AlphaAdamlinkで利用可能です。
参考スコア（独自算出の注目度）: 17.490809667438818
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the training of large language models (LLMs), updating parameters more efficiently and stably has always been an important challenge. To achieve efficient parameter updates, existing methods usually achieve performance comparable to full parameter updates through methods such as low-dimensional decomposition or layer-wise selective updates. In this work, we propose AlphaAdam, an optimization framework for LLM from the perspective of intra-layer parameter updates. By decoupling parameter updates and dynamically adjusting their strength, AlphaAdam accelerates convergence and improves training stability. We construct parameter masks based on the consistency of historical momentum and gradient direction and combine them with an adaptive mask strength strategy to ensure efficient optimization and theoretical convergence guarantees, which is also applicable to most momentum-based optimizers. Extensive experiments show that AlphaAdam outperforms state-of-the-art methods such as AdamW in terms of convergence speed and computational efficiency across tasks, including GPT-2 pre-trained and fine-tuned RoBERTa and Llama-7B. Our AlphaAdam implements an optimizer enhancement framework for LLMs through intra-layer asynchronous masked adaptive updates. Our code is available in this \href{https://github.com/MaeChd/AlphaAdam}{link}
Abstract（参考訳）: 大きな言語モデル(LLM)のトレーニングでは、パラメータをより効率的に安定的に更新することが常に重要な課題である。効率的なパラメータ更新を実現するために、既存のメソッドは通常、低次元の分解や層単位での選択的な更新といった方法を通じて、完全なパラメータ更新に匹敵するパフォーマンスを達成する。本研究では,層内パラメータ更新の観点からLLMの最適化フレームワークであるAlphaAdamを提案する。パラメータの更新を分離し、その強度を動的に調整することで、AlphaAdamは収束を加速し、トレーニングの安定性を向上させる。我々は,過去の運動量と勾配方向の整合性に基づいてパラメータマスクを構築し,それを適応マスク強度戦略と組み合わせて,効率的な最適化と理論的収束を保証する。大規模な実験により、AlphaAdamはAdamWのような最先端の手法よりも、事前訓練されたRoBERTaとLlama-7Bを含むタスク間の収束速度や計算効率に優れていた。我々のAlphaAdamは、層内非同期マスキング適応更新によるLCMの最適化フレームワークを実装している。私たちのコードは、この \href{https://github.com/MaeChd/AlphaAdam}{link} で利用可能です。

関連論文リスト

ESSA: Evolutionary Strategies for Scalable Alignment [2.589791058467358]
本稿では,進化的戦略(ES)を用いて大規模言語モデル(LLM)を効率的に整合させる新しいフレームワークであるESSAを紹介する。 ESは、高い並列化性、メモリ効率、スパース報酬に対する堅牢性、収束に必要なデータサンプルの少ないなど、LCMアライメントに適している。我々はESを勾配に基づくアライメントに代わる有望でスケーラブルな代替品として確立し、大規模言語モデルの効率的な後学習の道を開いた。
論文参考訳（メタデータ） (2025-07-06T16:23:07Z)
Architect Your Landscape Approach (AYLA) for Optimizations in Deep Learning [0.0]
グラディエントDescent(DSG)とその変種(ADAMなど)はディープラーニングの最適化の基礎となっている。本稿では適応性と効率性を向上する新しい最適化手法であるAYLAを紹介する。
論文参考訳（メタデータ） (2025-04-02T16:31:39Z)
MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。その結果,MARSの実装はAdamより一貫して優れていた。
論文参考訳（メタデータ） (2024-11-15T18:57:39Z)
Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文参考訳（メタデータ） (2024-10-10T17:00:06Z)
Deconstructing What Makes a Good Optimizer for Language Models [7.9224468703944115]
我々は,SGD,Adafactor,Adam,Lion,Sophiaなどの最適化アルゴリズムを比較した。ハイパーパラメータの誤特定に対する性能や安定性の観点からは、明確な勝者として1つのアルゴリズムが現れることはなかった。
論文参考訳（メタデータ） (2024-07-10T18:11:40Z)
Memory-Efficient Optimization with Factorized Hamiltonian Descent [11.01832755213396]
本稿では,この課題に対処するためのメモリ効率因子化手法を取り入れた新しい適応型H-Facを提案する。運動量とスケーリングパラメータ推定器の両方にランク1パラメータ化を適用することで、H-Facはメモリコストをサブ線形レベルに削減する。我々はハミルトン力学から導かれる原理に基づいてアルゴリズムを開発し、最適化力学と収束保証において堅牢な理論的基盤を提供する。
論文参考訳（メタデータ） (2024-06-14T12:05:17Z)
MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。 AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文参考訳（メタデータ） (2024-01-17T00:16:46Z)
Multiplicative update rules for accelerating deep learning training and increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文参考訳（メタデータ） (2023-07-14T06:44:43Z)
Bidirectional Looking with A Novel Double Exponential Moving Average to Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文参考訳（メタデータ） (2023-07-02T18:16:06Z)
Straggler-Resilient Decentralized Learning via Adaptive Asynchronous Updates [28.813671194939225]
完全に分散化された最適化手法は、人気のあるパラメータサーバフレームワークに代わるものとして提唱されている。本稿では、各労働者が通信する近隣労働者の数を適応的に決定することで、適応的な非同期更新を施した完全に分散化されたアルゴリズムを提案する。 DSGD-AAUは収束の線形高速化を実現し,その有効性を示す。
論文参考訳（メタデータ） (2023-06-11T02:08:59Z)
Transformer-Based Learned Optimization [37.84626515073609]
ニューラルネットワークを用いて計算の更新ステップを表現できる学習最適化手法を提案する。私たちの革新は、古典的なBFGSアルゴリズムにインスパイアされた、新しいニューラルネットワークアーキテクチャです。最適化アルゴリズムの評価に伝統的に用いられてきた目的関数からなるベンチマークにおいて,提案手法の利点を実証する。
論文参考訳（メタデータ） (2022-12-02T09:47:08Z)
An Efficient Asynchronous Method for Integrating Evolutionary and Gradient-based Policy Search [76.73477450555046]
本稿では、ESの並列効率を最大化し、ポリシー勾配法と統合する非同期進化戦略強化学習(AES-RL)を提案する。具体的には、(1)ESとDRLを非同期にマージする新しいフレームワークを提案し、2)非同期、ES、DRLのすべての利点を利用できる様々な非同期更新方法を提案する。
論文参考訳（メタデータ） (2020-12-10T02:30:48Z)
EOS: a Parallel, Self-Adaptive, Multi-Population Evolutionary Algorithm for Constrained Global Optimization [68.8204255655161]
EOSは実数値変数の制約付きおよび制約なし問題に対する大域的最適化アルゴリズムである。これはよく知られた微分進化(DE)アルゴリズムに多くの改良を加えている。その結果、EOSisは、最先端の単一人口自己適応Dアルゴリズムと比較して高い性能を達成可能であることが証明された。
論文参考訳（メタデータ） (2020-07-09T10:19:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。