論文の概要: Dion: Distributed Orthonormalized Updates
- arxiv url: http://arxiv.org/abs/2504.05295v2
- Date: Wed, 21 May 2025 18:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 14:49:22.039756
- Title: Dion: Distributed Orthonormalized Updates
- Title(参考訳): Dion: 分散オーソノーマライズされたアップデート
- Authors: Kwangjun Ahn, Byron Xu, Natalie Abreu, John Langford,
- Abstract要約: Dion(DIstributed OrthoNormalization)はスケーラブルで通信効率のよい正規化ツールである。
同時にDDP、FSDP、TP並列処理と互換性があり、単一のデバイスで完全なパラメータ行列を解き放つことなく正規化更新を計算する。
言語モデルのDionを120Mから3Bパラメータに評価し、モデルサイズとバッチサイズの増加により、その利点が向上することを確認した。
- 参考スコア(独自算出の注目度): 16.69384608227641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that orthonormal matrix updates speed up neural network optimization, improve training stability, and offer better hyperparameter transfer across model sizes. Applying these updates efficiently when model weights and optimizer states are sharded across a large-scale distributed LLM training system remains a major challenge. We introduce Dion (DIstributed OrthoNormalization), a scalable and communication-efficient orthonormalizing optimizer. Dion leverages low-rank approximation and decoupled momentum buffers, eliminating the need for full gradient synchronization while producing numerically equivalent results. It is compatible with simultaneous DDP, FSDP, and TP parallelism, and it computes an orthonormalized update without unsharding a full parameter matrix on any single device. We evaluate Dion on language models from 120M to 3B parameters and find that its benefits improve with increasing model size and batch size.
- Abstract(参考訳): 最近の研究は、正規正規行列がニューラルネットワークの最適化を高速化し、トレーニングの安定性を改善し、モデルサイズ間でのハイパーパラメータ転送を改善することを示している。
モデルウェイトとオプティマイザ状態が大規模分散LLMトレーニングシステムに分散された場合、これらの更新を効率的に適用することは大きな課題である。
Dion (DIstributed OrthoNormalization) はスケーラブルで通信効率の良い正規化最適化システムである。
Dionは低ランク近似と切り離された運動量バッファを活用し、数値的に等価な結果を生み出しながら完全な勾配同期を必要としない。
同時にDDP、FSDP、TP並列処理と互換性があり、単一のデバイスで完全なパラメータ行列を解き放つことなく正規化更新を計算する。
我々は,言語モデルのDionを120Mから3Bパラメータに評価し,モデルサイズとバッチサイズの増加によってその利点が向上することを発見した。
関連論文リスト
- Low-rank Momentum Factorization for Memory Efficient Training [13.464518325870444]
Momentum Factorized (MoFaSGD) は、1次運動量の動的に更新された低ランクSVD表現を維持している。
大規模な言語モデルベンチマークにおけるMoFaSGDの有効性を実証し、メモリ削減(例えばLoRA)と性能の競合的なトレードオフを実現する。
論文 参考訳(メタデータ) (2025-07-10T18:04:52Z) - AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning [26.103555014247117]
強化学習(RL)は、大規模言語モデル(LLM)の訓練において支配的なパラダイムとなっている。
本稿では,完全非同期RLシステムであるAReaLについて述べる。
論文 参考訳(メタデータ) (2025-05-30T07:18:25Z) - Advanced Relay-Based Collaborative Framework for Optimizing Synchronization in Split Federated Learning over Wireless Networks [4.235050593084289]
Split Federated Learning (SFL)はエッジコンピューティングにおける分散モデルトレーニングに有望なアプローチを提供する。
本研究では,ユーザの同期効率を最適化する協調SFLフレームワークを提案する。
提案するCSFLフレームワークは同期遅延を低減し,システム全体のスループットを向上させる。
論文 参考訳(メタデータ) (2025-03-18T22:11:54Z) - DeMo: Decoupled Momentum Optimization [6.169574689318864]
大規模ニューラルネットワークのトレーニングは通常、特別な高速相互接続を通じてアクセラレータ間の共有を必要とする。
本稿では,bfDecoupled textbfMomentum (DeMo)を提案する。
実験の結果,DeMoでトレーニングしたモデルとAdamWでトレーニングした同等のモデルのパフォーマンスが一致したか,あるいは上回った。
論文 参考訳(メタデータ) (2024-11-29T17:31:47Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Hyperdimensional Computing Empowered Federated Foundation Model over Wireless Networks for Metaverse [56.384390765357004]
本稿では,新しい基礎モデルのための統合型分割学習と超次元計算フレームワークを提案する。
この新しいアプローチは通信コスト、計算負荷、プライバシーリスクを低減し、Metaverseのリソース制約されたエッジデバイスに適している。
論文 参考訳(メタデータ) (2024-08-26T17:03:14Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Spectrum-Aware Parameter Efficient Fine-Tuning for Diffusion Models [73.88009808326387]
生成モデルのための新しいスペクトル対応適応フレームワークを提案する。
本手法は,事前学習した重みの特異値とその基底ベクトルを調節する。
本稿では,計算効率と表現能力のバランスをとるスペクトルオーソ分解適応(SODA)を提案する。
論文 参考訳(メタデータ) (2024-05-31T17:43:35Z) - Communication-Efficient Distributed Deep Learning via Federated Dynamic Averaging [1.4748100900619232]
Federated Dynamic Averaging (FDA)は通信効率の良いDDL戦略である。
FDAは従来のアルゴリズムと最先端のアルゴリズムと比較して、通信コストを桁違いに削減している。
論文 参考訳(メタデータ) (2024-05-31T16:34:11Z) - Diffusion Model Patching via Mixture-of-Prompts [17.04227271007777]
拡散モデルパッチング(DMP)は,事前学習した拡散モデルの性能を高めるための単純な手法である。
DMPは、オリジナルのモデルを凍結したまま、モデルの入力空間に小さな学習可能なプロンプトを挿入する。
DMPは、収束したDiT-L/2のFIDをFFHQで10.38%向上させる。
論文 参考訳(メタデータ) (2024-05-28T04:47:54Z) - AdaFisher: Adaptive Second Order Optimization via Fisher Information [22.851200800265914]
第一次最適化法は、現在、深層ニューラルネットワーク(DNN)のトレーニングにおいて主流となっている。Adamのような企業は、トレーニング中に勾配の行列プレコンディショニングを利用することで、限られた曲率情報を取り入れている。
広範に使われている2階最適化アルゴリズムは、AdamやSGDのような一階最適化アルゴリズムよりも優れた収束特性を示す。
本稿では,適応勾配プレコンディショニングのためのフィッシャー情報行列の角角ブロッククロネッカー近似を利用する適応二階法であるEmphAdaFisherを提案する。
論文 参考訳(メタデータ) (2024-05-26T01:25:02Z) - Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文 参考訳(メタデータ) (2024-01-03T13:07:07Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Fast-Convergent Federated Learning via Cyclic Aggregation [10.658882342481542]
フェデレートラーニング(FL)は、複数のエッジデバイス上で共有グローバルモデルを最適化することを目的として、中央サーバに(プライベート)データを送信しない。
本稿では,サーバ側での循環学習率を利用して,性能向上によるトレーニングイテレーション数を削減した。
数値計算の結果,提案したサイクリックアグリゲーションを既存のFLアルゴリズムに簡単に差し込むことで,学習イテレーションの数を効果的に減らし,性能が向上することを確認した。
論文 参考訳(メタデータ) (2022-10-29T07:20:59Z) - Asynchronous Decentralized Bayesian Optimization for Large Scale
Hyperparameter Optimization [13.89136187674851]
BOでは、パラメータ構成と性能の関係を学習するために、計算的に安価にサロゲートモデルを用いる。
本稿では非同期分散BOを提案する。各ワーカーがシーケンシャルBOを実行し、その結果を共有ストレージを介して非同期に通信する。
計算効率を損なうことなく,作業者の95%以上を並列作業者1,920名に拡張する。
論文 参考訳(メタデータ) (2022-07-01T15:07:56Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。