論文の概要: Communication Efficient Distributed Training with Distributed Lion
- arxiv url: http://arxiv.org/abs/2404.00438v1
- Date: Sat, 30 Mar 2024 18:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:49:50.841781
- Title: Communication Efficient Distributed Training with Distributed Lion
- Title(参考訳): 分散ライオンを用いた分散学習の効率化
- Authors: Bo Liu, Lemeng Wu, Lizhang Chen, Kaizhao Liang, Jiaxu Zhu, Chen Liang, Raghuraman Krishnamoorthi, Qiang Liu,
- Abstract要約: 分散トレーニング環境に対するLionの革新的な適応であるDistributed Lionを紹介します。
視覚と言語の問題の両方で、タスク、ワーカ数、バッチサイズにまたがる堅牢性を示します。
- 参考スコア(独自算出の注目度): 25.39333175634972
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Lion optimizer has been a promising competitor with the AdamW for training large AI models, with advantages on memory, computation, and sample efficiency. In this paper, we introduce Distributed Lion, an innovative adaptation of Lion for distributed training environments. Leveraging the sign operator in Lion, our Distributed Lion only requires communicating binary or lower-precision vectors between workers to the center server, significantly reducing the communication cost. Our theoretical analysis confirms Distributed Lion's convergence properties. Empirical results demonstrate its robustness across a range of tasks, worker counts, and batch sizes, on both vision and language problems. Notably, Distributed Lion attains comparable performance to standard Lion or AdamW optimizers applied on aggregated gradients, but with significantly reduced communication bandwidth. This feature is particularly advantageous for training large models. In addition, we also demonstrate that Distributed Lion presents a more favorable performance-bandwidth balance compared to existing efficient distributed methods such as deep gradient compression and ternary gradients.
- Abstract(参考訳): Lionオプティマイザは、メモリ、計算、サンプル効率にアドバンテージを持つ大規模なAIモデルをトレーニングするAdamWと、有望な競合関係にある。
本稿では,分散学習環境におけるLionの革新的適応であるDistributed Lionを紹介する。
Lionのサイン演算子を活用するため、Distributed Lionでは、ワーカ間のバイナリまたは低い精度のベクトルを中央サーバに通信することしか必要とせず、通信コストを大幅に削減しています。
理論的解析により分散ライオンの収束特性が確認できる。
実証的な結果は、視覚と言語の問題の両方において、タスク、ワーカ数、バッチサイズにまたがる堅牢性を示す。
特に、Distributed Lionは、集約された勾配に適用された標準のLionやAdamWオプティマイザに匹敵する性能を得るが、通信帯域幅は大幅に減少する。
この機能は、特に大きなモデルのトレーニングに有利である。
さらに, 分散ライオンは, 深勾配圧縮や3次勾配など, 既存の効率的な分散手法と比較して, 帯域幅のバランスが良好であることを示す。
関連論文リスト
- Lion Cub: Minimizing Communication Overhead in Distributed Lion [9.360174471655977]
通信オーバーヘッドは、分散ディープラーニング、特に遅いイーサネット相互接続において重要な課題である。
分散学習に不可欠な3つの要因をLionを用いて分析し、コミュニケーション手法の最適化、効果的な量子化手法の同定、モーメント同期の必要性を評価する。
これはLionと比較して、エンドツーエンドのトレーニングで最大5倍のスピードアップを可能にします。
論文 参考訳(メタデータ) (2024-11-25T15:08:24Z) - LoCo: Low-Bit Communication Adaptor for Large-scale Model Training [63.040522637816906]
低ビット通信は、しばしば圧縮情報損失によってトレーニング品質が低下する。
本稿では,ローカルGPUノードを補償するLoCo(Lo-bit Communication Adaptor)を提案する。
実験結果から,Megatron-LMやPyTorchs FSDPといった大規模トレーニングモデルフレームワークの移動により,LoCoは圧縮通信効率を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-05T13:01:36Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Lion Secretly Solves Constrained Optimization: As Lyapunov Predicts [8.393403749426097]
Lion(Evolved Sign Momentum)は、大規模なAIモデルのトレーニングにおいて有望な結果を示している。
これはAdamWと同等か好意的に機能するが、メモリ効率は向上する。
我々の分析は,ライオン更新のための新しいリャプノフ関数の開発によって可能となった。
論文 参考訳(メタデータ) (2023-10-09T17:41:29Z) - LION: Implicit Vision Prompt Tuning [95.71880718928439]
ImpLicit vIsion prOmpt tuNing (LION) と呼ばれる効率的な視覚モデルを提案する。
LIONは、様々な複雑なタスクに対して安定したメモリコストを持つ深い暗黙のモデルによって動機付けられている。
LIONによって得られたパフォーマンスは、幅広いデータセットで保証されています。
論文 参考訳(メタデータ) (2023-03-17T14:07:55Z) - Symbolic Discovery of Optimization Algorithms [132.62397077095787]
我々は,効率的な探索手法を用いて,無限小のプログラム空間を探索する。
提案手法は, 単純かつ効率的な最適化アルゴリズムである $textbfLion$ を探索する。
LionはGoogle検索広告CTRモデルのようなプロダクションシステムにうまくデプロイされている。
論文 参考訳(メタデータ) (2023-02-13T20:27:30Z) - Predictive GAN-powered Multi-Objective Optimization for Hybrid Federated
Split Learning [56.125720497163684]
無線ネットワークにおけるハイブリッド・フェデレーション・スプリット・ラーニング・フレームワークを提案する。
ラベル共有のないモデル分割のための並列計算方式を設計し,提案方式が収束速度に与える影響を理論的に解析する。
論文 参考訳(メタデータ) (2022-09-02T10:29:56Z) - Regularization via Adaptive Pairwise Label Smoothing [19.252319300590653]
本稿では Pairwise Label Smoothing (PLS) と呼ばれる新しいラベル平滑化手法を提案する。
クロスバリデーションサーチによって大域的に滑らかな分布質量を求める現在のLS法とは異なり、PSSはトレーニング中に各入力ペアの分布質量を自動的に学習する。
PLSはLSおよびベースラインモデルよりも有意に優れており,相対的分類誤差の最大30%を達成している。
論文 参考訳(メタデータ) (2020-12-02T22:08:10Z) - Pollux: Co-adaptive Cluster Scheduling for Goodput-Optimized Deep
Learning [61.29990368322931]
Polluxは、相互依存要因を適応的に最適化することで、ディープラーニング(DL)クラスタのスケジューリング性能を改善する。
Polluxは、最先端のDLスケジューラと比較して、平均的なジョブ完了時間を37-50%削減する。
論文 参考訳(メタデータ) (2020-08-27T16:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。