論文の概要: Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness
- arxiv url: http://arxiv.org/abs/2306.10015v1
- Date: Fri, 16 Jun 2023 17:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 12:35:18.153166
- Title: Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness
- Title(参考訳): 1バイト(勾配あたり)のみ:共有ランダム性を用いた低帯域幅分散言語モデルの微調整について
- Authors: Eric Zelikman, Qian Huang, Percy Liang, Nick Haber, Noah D. Goodman
- Abstract要約: 分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
- 参考スコア(独自算出の注目度): 86.61582747039053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model training in distributed settings is limited by the
communication cost of gradient exchanges. In this short note, we extend recent
work from Malladi et al. (2023), using shared randomness to perform distributed
fine-tuning with low bandwidth. The method is a natural decentralized extension
of memory-efficient Simultaneous Perturbation Stochastic Approximation (SPSA).
Each iteration, each machine seeds a Random Number Generator (RNG) to perform
local reproducible perturbations on model weights and calculate and exchange
scalar projected gradients, which are then used to update each model. By using
a (machine, sample) identifier as the random seed, each model can regenerate
one another's perturbations. As machines only exchange single-byte projected
gradients, this is highly communication efficient. There are also potential
privacy benefits, as projected gradients may be calculated on different
training data, and models never access the other's data. Our approach not only
drastically reduces communication bandwidth requirements but also accommodates
dynamic addition or removal of machines during the training process and retains
the memory-efficient and inference-only advantages of recent work. We perform
proof-of-concept experiments to demonstrate the potential usefulness of this
method, building off of rich literature on distributed optimization and
memory-efficient training.
- Abstract(参考訳): 分散環境での言語モデルトレーニングは、勾配交換の通信コストによって制限される。
本稿では,帯域幅の少ない分散微調整を行うための共有ランダム性を用いて,malaradi et al. (2023) から最近の研究を拡張した。
この方法は、メモリ効率の同時摂動確率近似(SPSA)の自然な分散拡張である。
各マシンはランダム数生成器(RNG)をシードし、モデルウェイトを局所的に再現可能な摂動を行い、スカラー投影勾配を計算および交換し、各モデルを更新する。
ランダムシードとして(機械、サンプル)識別子を使用することで、各モデルは互いの摂動を再生成することができる。
マシンは1バイトの射影勾配しか交換しないため、通信効率が高い。
予測された勾配は異なるトレーニングデータで計算され、モデルは互いにデータにアクセスできないため、潜在的なプライバシー上のメリットもある。
このアプローチは通信帯域幅の大幅な削減だけでなく、トレーニングプロセス中にマシンの動的な追加や削除を許容し、最近の作業のメモリ効率と推論のみの利点を保ちます。
本手法の有効性を実証するために概念実証実験を行い,分散最適化とメモリ効率のトレーニングに基づく豊富な文献を構築した。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - SalientGrads: Sparse Models for Communication Efficient and Data Aware
Distributed Federated Training [1.0413504599164103]
フェデレートラーニング(FL)は、データを収集せずにプライバシを保ちながら、クライアントサイトの分散データを活用したモデルのトレーニングを可能にする。
FLの重要な課題の1つは、リソース制限されたエッジクライアントノードにおける計算の制限と通信帯域の低さである。
本稿では,学習前にデータ認識サブネットワークを選択することで,スパーストレーニングのプロセスを簡単にするSalient Gradsを提案する。
論文 参考訳(メタデータ) (2023-04-15T06:46:37Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - PushNet: Efficient and Adaptive Neural Message Passing [1.9121961872220468]
メッセージパッシングニューラルネットワークは、最近、グラフ上での表現学習に対する最先端のアプローチへと進化した。
既存のメソッドは、複数のラウンドですべてのエッジに沿って同期メッセージパッシングを実行する。
我々は、収束するまで最も関連性の高いエッジに沿ってのみ情報をプッシュする、新しい非同期メッセージパッシングアプローチについて検討する。
論文 参考訳(メタデータ) (2020-03-04T18:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。