論文の概要: Can We Learn Communication-Efficient Optimizers?
- arxiv url: http://arxiv.org/abs/2312.02204v1
- Date: Sat, 2 Dec 2023 21:51:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 18:21:40.445530
- Title: Can We Learn Communication-Efficient Optimizers?
- Title(参考訳): コミュニケーション効率の良い最適化を学べるか?
- Authors: Charles-\'Etienne Joseph and Benjamin Th\'erien and Abhinav Moudgil
and Boris Knyazev and Eugene Belilovsky
- Abstract要約: 通信効率のよいSGD、特にローカルなSGDは近年大きな関心を集めている。
本研究では,近年の学習分野の進歩が,コミュニケーション効率を保ちながら,このギャップを埋める可能性について検討する。
- 参考スコア(独自算出の注目度): 13.092669916560347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication-efficient variants of SGD, specifically local SGD, have
received a great deal of interest in recent years. These approaches compute
multiple gradient steps locally, that is on each worker, before averaging model
parameters, helping relieve the critical communication bottleneck in
distributed deep learning training. Although many variants of these approaches
have been proposed, they can sometimes lag behind state-of-the-art adaptive
optimizers for deep learning. In this work, we investigate if the recent
progress in the emerging area of learned optimizers can potentially close this
gap while remaining communication-efficient. Specifically, we meta-learn how to
perform global updates given an update from local SGD iterations. Our results
demonstrate that learned optimizers can substantially outperform local SGD and
its sophisticated variants while maintaining their communication efficiency.
Learned optimizers can even generalize to unseen and much larger datasets and
architectures, including ImageNet and ViTs, and to unseen modalities such as
language modeling. We therefore demonstrate the potential of learned optimizers
for improving communication-efficient distributed learning.
- Abstract(参考訳): 通信効率のよいSGD、特にローカルなSGDは近年大きな関心を集めている。
これらのアプローチは、モデルパラメータを平均化する前に、各ワーカ上の複数の勾配ステップをローカルに計算することで、分散ディープラーニングトレーニングにおける重要な通信ボトルネックを緩和する。
これらのアプローチの多くの変種が提案されているが、ディープラーニングのための最先端の適応最適化器に遅れることがある。
本研究では,近年の学習最適化の進歩が,コミュニケーション効率を保ちながら,このギャップを埋めることができるかどうかを検討する。
具体的には、ローカルなSGDイテレーションからの更新によって、グローバルアップデートの実行方法をメタ学習する。
その結果,学習した最適化器は通信効率を保ちながら,局所的なSGDとその洗練された変種を著しく上回り得ることを示した。
学習されたオプティマイザは、ImageNetやViTsなど、目に見えない、はるかに大きなデータセットやアーキテクチャ、言語モデリングのようなモダリティまで一般化することができる。
そこで我々は,コミュニケーション効率のよい分散学習における学習最適化の可能性を示した。
関連論文リスト
- High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - Context-Aware Orchestration of Energy-Efficient Gossip Learning Schemes [8.382766344930157]
本稿では,Gossip Learningと学習プロセスの適応最適化を組み合わせた分散学習手法を提案する。
本稿では,ノードごとのリアルタイムな最適化に依存するデータ駆動型OGL管理手法を提案する。
その結果,提案手法は幅広いネットワークシナリオにおいて極めて効率的かつ効果的であることが示唆された。
論文 参考訳(メタデータ) (2024-04-18T09:17:46Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Training With Data Dependent Dynamic Learning Rates [8.833548357664608]
本稿では,インスタンス間の損失関数特性の違いを考慮に入れた最適化フレームワークを提案する。
我々のフレームワークはデータセットに存在する各インスタンスの動的学習率を学習する。
我々のフレームワークは、機械学習モデルのパーソナライズに、既知のターゲットデータ分布に対して使用できることを示す。
論文 参考訳(メタデータ) (2021-05-27T21:52:29Z) - CosSGD: Nonlinear Quantization for Communication-efficient Federated
Learning [62.65937719264881]
フェデレーション学習は、これらのクライアントのローカルデータを中央サーバに転送することなく、クライアント間での学習を促進する。
圧縮勾配降下のための非線形量子化を提案し、フェデレーションラーニングで容易に利用することができる。
本システムは,訓練過程の収束と精度を維持しつつ,通信コストを最大3桁まで削減する。
論文 参考訳(メタデータ) (2020-12-15T12:20:28Z) - Domain Adaptive Person Re-Identification via Coupling Optimization [58.567492812339566]
ドメイン適応型人物再識別(ReID)は、ドメインのギャップとターゲットシナリオに対するアノテーションの不足のために困難である。
本稿では,ドメイン不変写像 (DIM) 法とグローバル局所距離最適化 (GLO) を含む結合最適化手法を提案する。
GLOはターゲットドメインの教師なし設定でReIDモデルをトレーニングするために設計されている。
論文 参考訳(メタデータ) (2020-11-06T14:01:03Z) - Jointly Optimizing Dataset Size and Local Updates in Heterogeneous
Mobile Edge Learning [11.191719032853527]
本稿では、リソース制約のある無線エッジを介して接続された学習者を対象に訓練された分散機械学習(ML)モデルの精度を最大化する。
我々は,各学習者の不均一なコミュニケーションと計算能力を考慮して,ローカル/グローバルな更新数とタスクサイズ割り当てを共同で最適化し,損失を最小限に抑える。
論文 参考訳(メタデータ) (2020-06-12T18:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。