論文の概要: Dion: Distributed Orthonormalized Updates
- arxiv url: http://arxiv.org/abs/2504.05295v2
- Date: Wed, 21 May 2025 18:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 14:49:22.039756
- Title: Dion: Distributed Orthonormalized Updates
- Title(参考訳): Dion: 分散オーソノーマライズされたアップデート
- Authors: Kwangjun Ahn, Byron Xu, Natalie Abreu, John Langford,
- Abstract要約: Dion(DIstributed OrthoNormalization)はスケーラブルで通信効率のよい正規化ツールである。
同時にDDP、FSDP、TP並列処理と互換性があり、単一のデバイスで完全なパラメータ行列を解き放つことなく正規化更新を計算する。
言語モデルのDionを120Mから3Bパラメータに評価し、モデルサイズとバッチサイズの増加により、その利点が向上することを確認した。
- 参考スコア(独自算出の注目度): 16.69384608227641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that orthonormal matrix updates speed up neural network optimization, improve training stability, and offer better hyperparameter transfer across model sizes. Applying these updates efficiently when model weights and optimizer states are sharded across a large-scale distributed LLM training system remains a major challenge. We introduce Dion (DIstributed OrthoNormalization), a scalable and communication-efficient orthonormalizing optimizer. Dion leverages low-rank approximation and decoupled momentum buffers, eliminating the need for full gradient synchronization while producing numerically equivalent results. It is compatible with simultaneous DDP, FSDP, and TP parallelism, and it computes an orthonormalized update without unsharding a full parameter matrix on any single device. We evaluate Dion on language models from 120M to 3B parameters and find that its benefits improve with increasing model size and batch size.
- Abstract(参考訳): 最近の研究は、正規正規行列がニューラルネットワークの最適化を高速化し、トレーニングの安定性を改善し、モデルサイズ間でのハイパーパラメータ転送を改善することを示している。
モデルウェイトとオプティマイザ状態が大規模分散LLMトレーニングシステムに分散された場合、これらの更新を効率的に適用することは大きな課題である。
Dion (DIstributed OrthoNormalization) はスケーラブルで通信効率の良い正規化最適化システムである。
Dionは低ランク近似と切り離された運動量バッファを活用し、数値的に等価な結果を生み出しながら完全な勾配同期を必要としない。
同時にDDP、FSDP、TP並列処理と互換性があり、単一のデバイスで完全なパラメータ行列を解き放つことなく正規化更新を計算する。
我々は,言語モデルのDionを120Mから3Bパラメータに評価し,モデルサイズとバッチサイズの増加によってその利点が向上することを発見した。
関連論文リスト
- Advanced Relay-Based Collaborative Framework for Optimizing Synchronization in Split Federated Learning over Wireless Networks [4.235050593084289]
Split Federated Learning (SFL)はエッジコンピューティングにおける分散モデルトレーニングに有望なアプローチを提供する。
本研究では,ユーザの同期効率を最適化する協調SFLフレームワークを提案する。
提案するCSFLフレームワークは同期遅延を低減し,システム全体のスループットを向上させる。
論文 参考訳(メタデータ) (2025-03-18T22:11:54Z) - DeMo: Decoupled Momentum Optimization [6.169574689318864]
大規模ニューラルネットワークのトレーニングは通常、特別な高速相互接続を通じてアクセラレータ間の共有を必要とする。
本稿では,bfDecoupled textbfMomentum (DeMo)を提案する。
実験の結果,DeMoでトレーニングしたモデルとAdamWでトレーニングした同等のモデルのパフォーマンスが一致したか,あるいは上回った。
論文 参考訳(メタデータ) (2024-11-29T17:31:47Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Hyperdimensional Computing Empowered Federated Foundation Model over Wireless Networks for Metaverse [56.384390765357004]
本稿では,新しい基礎モデルのための統合型分割学習と超次元計算フレームワークを提案する。
この新しいアプローチは通信コスト、計算負荷、プライバシーリスクを低減し、Metaverseのリソース制約されたエッジデバイスに適している。
論文 参考訳(メタデータ) (2024-08-26T17:03:14Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Communication-Efficient Distributed Deep Learning via Federated Dynamic Averaging [1.4748100900619232]
Federated Dynamic Averaging (FDA)は通信効率の良いDDL戦略である。
FDAは従来のアルゴリズムと最先端のアルゴリズムと比較して、通信コストを桁違いに削減している。
論文 参考訳(メタデータ) (2024-05-31T16:34:11Z) - Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文 参考訳(メタデータ) (2024-01-03T13:07:07Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Fast-Convergent Federated Learning via Cyclic Aggregation [10.658882342481542]
フェデレートラーニング(FL)は、複数のエッジデバイス上で共有グローバルモデルを最適化することを目的として、中央サーバに(プライベート)データを送信しない。
本稿では,サーバ側での循環学習率を利用して,性能向上によるトレーニングイテレーション数を削減した。
数値計算の結果,提案したサイクリックアグリゲーションを既存のFLアルゴリズムに簡単に差し込むことで,学習イテレーションの数を効果的に減らし,性能が向上することを確認した。
論文 参考訳(メタデータ) (2022-10-29T07:20:59Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。