論文の概要: Meta-learning Optimizers for Communication-Efficient Learning
- arxiv url: http://arxiv.org/abs/2312.02204v2
- Date: Wed, 11 Jun 2025 23:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:21.962014
- Title: Meta-learning Optimizers for Communication-Efficient Learning
- Title(参考訳): コミュニケーション効率の良い学習のためのメタ学習最適化
- Authors: Charles-Étienne Joseph, Benjamin Thérien, Abhinav Moudgil, Boris Knyazev, Eugene Belilovsky,
- Abstract要約: 通信効率のよいSGD、特にローカルなSGDは近年大きな関心を集めている。
これらのアプローチの多くの変種が提案されているが、ディープラーニングの最先端適応に遅れを生じることがある。
- 参考スコア(独自算出の注目度): 12.640586942181322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication-efficient variants of SGD, specifically local SGD, have received a great deal of interest in recent years. These approaches compute multiple gradient steps locally on each worker, before averaging model parameters, helping relieve the critical communication bottleneck in distributed deep learning training. Although many variants of these approaches have been proposed, they can sometimes lag behind state-of-the-art adaptive optimizers for deep learning. In this work, we investigate if the recent progress in the emerging area of learned optimizers can potentially close this gap in homogeneous data and homogeneous device settings while remaining communication-efficient. Specifically, we meta-learn how to perform global updates given an update from local SGD iterations. Our results demonstrate that learned optimizers can substantially outperform local SGD and its sophisticated variants while maintaining their communication efficiency. Our learned optimizers can even generalize to unseen and much larger datasets and architectures, including ImageNet and ViTs, and to unseen modalities such as language modeling. We therefore show the potential of learned optimizers for improving communication-efficient distributed learning.
- Abstract(参考訳): 通信効率のよいSGD、特にローカルなSGDは近年大きな関心を集めている。
これらのアプローチは、モデルパラメータを平均化する前に、各ワーカーの局所的な複数の勾配ステップを計算し、分散ディープラーニングトレーニングにおける重要なコミュニケーションボトルネックを緩和する。
これらの手法の多くの変種が提案されているが、ディープラーニングのための最先端の適応最適化手法に遅れが生じることがある。
本研究では,近年の学習オプティマイザの進歩が,コミュニケーション効率を保ちながら,同質なデータと同質なデバイス設定のギャップを埋める可能性について検討する。
具体的には、ローカルなSGDイテレーションからの更新によって、グローバルな更新を実行する方法をメタラーニングする。
その結果,学習した最適化器は通信効率を保ちながら,局所的なSGDとその洗練された変種を著しく上回り得ることを示した。
私たちの学習したオプティマイザは、ImageNetやViTsなど、目に見えない、はるかに大きなデータセットやアーキテクチャ、言語モデリングのようなモダリティにまで一般化することができます。
そこで本稿では,コミュニケーション効率のよい分散学習における学習最適化の可能性を示す。
関連論文リスト
- Efficient Distributed Optimization under Heavy-Tailed Noise [32.96984712007111]
TailOPTは、潜在的に勾配のばらつきと局所的な更新を伴うヘビーテールノイズに対処するように設計されている。
Bi2Clip$は、インナーとアウターの両方でコーディネートワイドクリッピングを行い、アダプティブライクなパフォーマンスを実現する。
この$Bi2Clip$は、いくつかの言語タスクやモデルにおいて優れたパフォーマンスを示し、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-02-06T15:47:18Z) - GDSG: Graph Diffusion-based Solution Generator for Optimization Problems in MEC Networks [109.17835015018532]
グラフ拡散型ソリューション生成(GDSG)法を提案する。
このアプローチは、おそらく最適な解に収束しながら、最適以下のデータセットを扱うように設計されている。
グラフニューラルネットワーク(GNN)を用いたマルチタスク拡散モデルとしてGDSGを構築し,高品質な解の分布を求める。
論文 参考訳(メタデータ) (2024-12-11T11:13:43Z) - High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - Context-Aware Orchestration of Energy-Efficient Gossip Learning Schemes [8.382766344930157]
本稿では,Gossip Learningと学習プロセスの適応最適化を組み合わせた分散学習手法を提案する。
本稿では,ノードごとのリアルタイムな最適化に依存するデータ駆動型OGL管理手法を提案する。
その結果,提案手法は幅広いネットワークシナリオにおいて極めて効率的かつ効果的であることが示唆された。
論文 参考訳(メタデータ) (2024-04-18T09:17:46Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Training With Data Dependent Dynamic Learning Rates [8.833548357664608]
本稿では,インスタンス間の損失関数特性の違いを考慮に入れた最適化フレームワークを提案する。
我々のフレームワークはデータセットに存在する各インスタンスの動的学習率を学習する。
我々のフレームワークは、機械学習モデルのパーソナライズに、既知のターゲットデータ分布に対して使用できることを示す。
論文 参考訳(メタデータ) (2021-05-27T21:52:29Z) - CosSGD: Nonlinear Quantization for Communication-efficient Federated
Learning [62.65937719264881]
フェデレーション学習は、これらのクライアントのローカルデータを中央サーバに転送することなく、クライアント間での学習を促進する。
圧縮勾配降下のための非線形量子化を提案し、フェデレーションラーニングで容易に利用することができる。
本システムは,訓練過程の収束と精度を維持しつつ,通信コストを最大3桁まで削減する。
論文 参考訳(メタデータ) (2020-12-15T12:20:28Z) - Domain Adaptive Person Re-Identification via Coupling Optimization [58.567492812339566]
ドメイン適応型人物再識別(ReID)は、ドメインのギャップとターゲットシナリオに対するアノテーションの不足のために困難である。
本稿では,ドメイン不変写像 (DIM) 法とグローバル局所距離最適化 (GLO) を含む結合最適化手法を提案する。
GLOはターゲットドメインの教師なし設定でReIDモデルをトレーニングするために設計されている。
論文 参考訳(メタデータ) (2020-11-06T14:01:03Z) - Jointly Optimizing Dataset Size and Local Updates in Heterogeneous
Mobile Edge Learning [11.191719032853527]
本稿では、リソース制約のある無線エッジを介して接続された学習者を対象に訓練された分散機械学習(ML)モデルの精度を最大化する。
我々は,各学習者の不均一なコミュニケーションと計算能力を考慮して,ローカル/グローバルな更新数とタスクサイズ割り当てを共同で最適化し,損失を最小限に抑える。
論文 参考訳(メタデータ) (2020-06-12T18:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。