Fugu-MT 論文翻訳(概要): lo-fi: distributed fine-tuning without communication

論文の概要: lo-fi: distributed fine-tuning without communication

arxiv url: http://arxiv.org/abs/2210.11948v1
Date: Wed, 19 Oct 2022 20:15:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 15:36:47.413300
Title: lo-fi: distributed fine-tuning without communication
Title（参考訳）: lo-fi:コミュニケーションなしの微調整
Authors: Mitchell Wortsman, Suchin Gururangan, Shen Li, Ali Farhadi, Ludwig Schmidt, Michael Rabbat, Ari S. Morcos
Abstract要約: 完全局所微調整をlo-fiと呼ぶ。 lo-fiの間、各ノードは通信なしで独立に微調整される。通信要求を取り除くことで、lo-fiは大規模モデルの微調整のためのリソースバリアを低減する。
参考スコア（独自算出の注目度）: 61.87390899015787
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When fine-tuning large neural networks, it is common to use multiple nodes and to communicate gradients at each optimization step. By contrast, we investigate completely local fine-tuning, which we refer to as lo-fi. During lo-fi, each node is fine-tuned independently without any communication. Then, the weights are averaged across nodes at the conclusion of fine-tuning. When fine-tuning DeiT-base and DeiT-large on ImageNet, this procedure matches accuracy in-distribution and improves accuracy under distribution shift compared to the baseline, which observes the same amount of data but communicates gradients at each step. We also observe that lo-fi matches the baseline's performance when fine-tuning OPT language models (up to 1.3B parameters) on Common Crawl. By removing the communication requirement, lo-fi reduces resource barriers for fine-tuning large models and enables fine-tuning in settings with prohibitive communication cost.
Abstract（参考訳）: 大規模ニューラルネットワークを微調整する場合、複数のノードを使用し、各最適化ステップで勾配を伝達することが一般的である。対照的に,lo-fiと呼ばれる完全局所的な微調整について検討する。 lo-fiの間、各ノードは通信なしで独立に微調整される。すると、重みは微調整の完了時にノード全体で平均される。 ImageNet 上で DeiT-base と DeiT-large を微調整すると、この手順は分布内分布の精度と一致し、同じ量のデータを観測するが各ステップで勾配を伝達するベースラインと比較して分布シフトの精度を向上させる。また,共通クローラ上でオプティカル言語モデル(最大1.3bパラメータ)を微調整する場合,lo-fiがベースラインのパフォーマンスと一致することも確認した。通信要求を除去することにより、lo-fiは大規模モデルの微調整のためのリソースバリアを低減し、通信の禁止コストで設定の微調整を可能にする。

関連論文リスト

Biased Federated Learning under Wireless Heterogeneity [7.3716675761469945]
Federated Learning(FL)は計算のための有望なフレームワークであり、プライベートデータを共有せずに協調的なモデルトレーニングを可能にする。既存の無線計算処理では,(1)無線信号重畳を利用するOTA(Over-the-air)と(2)収束のためのリソースを割り当てるOTA(Over-the-air)の2つの通信戦略が採用されている。本稿では,新しいOTAおよびデジタルFL更新を提案する。
論文参考訳（メタデータ） (2025-03-08T05:55:14Z)
Noise-Robust and Resource-Efficient ADMM-based Federated Learning [6.957420925496431]
フェデレートラーニング(FL)は、クライアントサーバ通信を活用して、分散データ上でグローバルモデルをトレーニングする。本稿では,通信負荷を低減しつつ,通信騒音に対するロバスト性を高める新しいFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-09-20T12:32:22Z)
SpaFL: Communication-Efficient Federated Learning with Sparse Models and Low computational Overhead [75.87007729801304]
SpaFL: 計算オーバーヘッドの少ないスパースモデル構造を最適化する通信効率のよいFLフレームワークを提案する。実験により、スパースベースラインに比べて通信やコンピューティングリソースをはるかに少なくし、精度を向上することが示された。
論文参考訳（メタデータ） (2024-06-01T13:10:35Z)
Decentralized Federated Learning Over Imperfect Communication Channels [68.08499874460857]
本稿では、分散化フェデレーション学習(D-FL)における不完全なコミュニケーションチャネルの影響を解析する。トレーニングラウンドあたりのローカルアグリゲーションの最適な数を決定し、ネットワークトポロジと不完全なチャネルに適応する。 D-FLは、最適数の局所的なアグリゲーションを持つため、トレーニング精度が10%以上向上する可能性がある。
論文参考訳（メタデータ） (2024-05-21T16:04:32Z)
FedNAR: Federated Optimization with Normalized Annealing Regularization [54.42032094044368]
ウェイト崩壊の選択を探索し、ウェイト崩壊値が既存のFLアルゴリズムの収束に有意な影響を及ぼすことを確かめる。我々は,既存のFLアルゴリズムにシームレスに統合可能なプラグインであるFederated Optimization with Normalized Annealing Regularization (FedNAR)を開発した。
論文参考訳（メタデータ） (2023-10-04T21:11:40Z)
Adaptive Message Quantization and Parallelization for Distributed Full-graph GNN Training [6.557328947642343]
大きなグラフ上のグラフニューラルネットワーク(GNN)の分散フルグラフトレーニングは、帯域幅の要求と時間を要する。本稿では,分散フルグラフ学習を高速化する効率的なGNNトレーニングシステムであるAdaQPを提案する。
論文参考訳（メタデータ） (2023-06-02T09:02:09Z)
Distributed Learning over Networks with Graph-Attention-Based Personalization [49.90052709285814]
分散ディープラーニングのためのグラフベースパーソナライズアルゴリズム(GATTA)を提案する。特に、各エージェントのパーソナライズされたモデルは、グローバルな部分とノード固有の部分で構成される。グラフ内の各エージェントを1つのノードとして扱うことにより、ノード固有のパラメータを特徴として扱うことにより、グラフアテンション機構の利点を継承することができる。
論文参考訳（メタデータ） (2023-05-22T13:48:30Z)
On Convergence of Federated Averaging Langevin Dynamics [22.013125418713763]
本稿では,分散クライアントを用いた不確実性定量化と平均予測のための平均ランゲヴィンアルゴリズム(FA-LD)を提案する。非可解データを用いた強対数分布に対するFA-LDの理論的保証を開発する。部分的なデバイス更新のみが可能な,さまざまな平均化スキームに基づく収束結果を示す。
論文参考訳（メタデータ） (2021-12-09T18:54:29Z)
Adaptive Quantization of Model Updates for Communication-Efficient Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文参考訳（メタデータ） (2021-02-08T19:14:21Z)
Faster Non-Convex Federated Learning via Global and Local Momentum [57.52663209739171]
textttFedGLOMOは最初の(一階)FLtexttFedGLOMOアルゴリズムです。クライアントとサーバ間の通信においても,我々のアルゴリズムは確実に最適である。
論文参考訳（メタデータ） (2020-12-07T21:05:31Z)
PushNet: Efficient and Adaptive Neural Message Passing [1.9121961872220468]
メッセージパッシングニューラルネットワークは、最近、グラフ上での表現学習に対する最先端のアプローチへと進化した。既存のメソッドは、複数のラウンドですべてのエッジに沿って同期メッセージパッシングを実行する。我々は、収束するまで最も関連性の高いエッジに沿ってのみ情報をプッシュする、新しい非同期メッセージパッシングアプローチについて検討する。
論文参考訳（メタデータ） (2020-03-04T18:15:30Z)
Adaptive Propagation Graph Convolutional Network [17.41698818541144]
グラフ畳み込みネットワーク(GCN)は、グラフデータに対して推論を行うニューラルネットワークモデルの一群である。我々は,各ノードにおける通信ステップ数を独立に適応させることで,最先端の結果が得られることを示す。提案した適応伝搬GCN (AP-GCN) は, 最適モデルよりも優れた, あるいは類似した結果が得られることを示す。
論文参考訳（メタデータ） (2020-02-24T15:31:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。