論文の概要: lo-fi: distributed fine-tuning without communication
- arxiv url: http://arxiv.org/abs/2210.11948v1
- Date: Wed, 19 Oct 2022 20:15:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 15:36:47.413300
- Title: lo-fi: distributed fine-tuning without communication
- Title(参考訳): lo-fi:コミュニケーションなしの微調整
- Authors: Mitchell Wortsman, Suchin Gururangan, Shen Li, Ali Farhadi, Ludwig
Schmidt, Michael Rabbat, Ari S. Morcos
- Abstract要約: 完全局所微調整をlo-fiと呼ぶ。
lo-fiの間、各ノードは通信なしで独立に微調整される。
通信要求を取り除くことで、lo-fiは大規模モデルの微調整のためのリソースバリアを低減する。
- 参考スコア(独自算出の注目度): 61.87390899015787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When fine-tuning large neural networks, it is common to use multiple nodes
and to communicate gradients at each optimization step. By contrast, we
investigate completely local fine-tuning, which we refer to as lo-fi. During
lo-fi, each node is fine-tuned independently without any communication. Then,
the weights are averaged across nodes at the conclusion of fine-tuning. When
fine-tuning DeiT-base and DeiT-large on ImageNet, this procedure matches
accuracy in-distribution and improves accuracy under distribution shift
compared to the baseline, which observes the same amount of data but
communicates gradients at each step. We also observe that lo-fi matches the
baseline's performance when fine-tuning OPT language models (up to 1.3B
parameters) on Common Crawl. By removing the communication requirement, lo-fi
reduces resource barriers for fine-tuning large models and enables fine-tuning
in settings with prohibitive communication cost.
- Abstract(参考訳): 大規模ニューラルネットワークを微調整する場合、複数のノードを使用し、各最適化ステップで勾配を伝達することが一般的である。
対照的に,lo-fiと呼ばれる完全局所的な微調整について検討する。
lo-fiの間、各ノードは通信なしで独立に微調整される。
すると、重みは微調整の完了時にノード全体で平均される。
ImageNet 上で DeiT-base と DeiT-large を微調整すると、この手順は分布内分布の精度と一致し、同じ量のデータを観測するが各ステップで勾配を伝達するベースラインと比較して分布シフトの精度を向上させる。
また,共通クローラ上でオプティカル言語モデル(最大1.3bパラメータ)を微調整する場合,lo-fiがベースラインのパフォーマンスと一致することも確認した。
通信要求を除去することにより、lo-fiは大規模モデルの微調整のためのリソースバリアを低減し、通信の禁止コストで設定の微調整を可能にする。
関連論文リスト
- FedNAR: Federated Optimization with Normalized Annealing Regularization [54.42032094044368]
ウェイト崩壊の選択を探索し、ウェイト崩壊値が既存のFLアルゴリズムの収束に有意な影響を及ぼすことを確かめる。
我々は,既存のFLアルゴリズムにシームレスに統合可能なプラグインであるFederated Optimization with Normalized Annealing Regularization (FedNAR)を開発した。
論文 参考訳(メタデータ) (2023-10-04T21:11:40Z) - Adaptive Message Quantization and Parallelization for Distributed
Full-graph GNN Training [6.557328947642343]
大きなグラフ上のグラフニューラルネットワーク(GNN)の分散フルグラフトレーニングは、帯域幅の要求と時間を要する。
本稿では,分散フルグラフ学習を高速化する効率的なGNNトレーニングシステムであるAdaQPを提案する。
論文 参考訳(メタデータ) (2023-06-02T09:02:09Z) - Distributed Learning over Networks with Graph-Attention-Based
Personalization [49.90052709285814]
分散ディープラーニングのためのグラフベースパーソナライズアルゴリズム(GATTA)を提案する。
特に、各エージェントのパーソナライズされたモデルは、グローバルな部分とノード固有の部分で構成される。
グラフ内の各エージェントを1つのノードとして扱うことにより、ノード固有のパラメータを特徴として扱うことにより、グラフアテンション機構の利点を継承することができる。
論文 参考訳(メタデータ) (2023-05-22T13:48:30Z) - Trainable Projected Gradient Method for Robust Fine-tuning [36.470333094917436]
本研究では,各層に課される制約を自動的に学習し,微粒な微調整正規化を実現するために,TPGM(Traiable Projected Gradient Method)を提案する。
これは二段階制約最適化問題としてファインチューニングを定式化することによって動機付けられる。
TPGM は OOD 性能における既存の微調整手法よりも優れた性能を示し,ID 性能に適合することを示した。
論文 参考訳(メタデータ) (2023-03-19T17:30:44Z) - On Convergence of Federated Averaging Langevin Dynamics [22.013125418713763]
本稿では,分散クライアントを用いた不確実性定量化と平均予測のための平均ランゲヴィンアルゴリズム(FA-LD)を提案する。
非可解データを用いた強対数分布に対するFA-LDの理論的保証を開発する。
部分的なデバイス更新のみが可能な,さまざまな平均化スキームに基づく収束結果を示す。
論文 参考訳(メタデータ) (2021-12-09T18:54:29Z) - Adaptive Quantization of Model Updates for Communication-Efficient
Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。
グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。
通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T19:14:21Z) - Faster Non-Convex Federated Learning via Global and Local Momentum [57.52663209739171]
textttFedGLOMOは最初の(一階)FLtexttFedGLOMOアルゴリズムです。
クライアントとサーバ間の通信においても,我々のアルゴリズムは確実に最適である。
論文 参考訳(メタデータ) (2020-12-07T21:05:31Z) - Over-the-Air Federated Learning from Heterogeneous Data [107.05618009955094]
フェデレートラーニング(Federated Learning、FL)は、集中型モデルの分散ラーニングのためのフレームワークである。
我々は,共通局所勾配勾配勾配(SGD)FLアルゴリズムを強化するコンバージェント OTA FL (COTAF) アルゴリズムを開発した。
我々は,COTAFにより誘導されるプリコーディングが,OTA FLを用いて訓練されたモデルの収束率と精度を顕著に向上させることを示す。
論文 参考訳(メタデータ) (2020-09-27T08:28:25Z) - PushNet: Efficient and Adaptive Neural Message Passing [1.9121961872220468]
メッセージパッシングニューラルネットワークは、最近、グラフ上での表現学習に対する最先端のアプローチへと進化した。
既存のメソッドは、複数のラウンドですべてのエッジに沿って同期メッセージパッシングを実行する。
我々は、収束するまで最も関連性の高いエッジに沿ってのみ情報をプッシュする、新しい非同期メッセージパッシングアプローチについて検討する。
論文 参考訳(メタデータ) (2020-03-04T18:15:30Z) - Adaptive Propagation Graph Convolutional Network [17.41698818541144]
グラフ畳み込みネットワーク(GCN)は、グラフデータに対して推論を行うニューラルネットワークモデルの一群である。
我々は,各ノードにおける通信ステップ数を独立に適応させることで,最先端の結果が得られることを示す。
提案した適応伝搬GCN (AP-GCN) は, 最適モデルよりも優れた, あるいは類似した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-24T15:31:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。