論文の概要: Efficient Distributed Optimization under Heavy-Tailed Noise
- arxiv url: http://arxiv.org/abs/2502.04164v1
- Date: Thu, 06 Feb 2025 15:47:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:31:52.193770
- Title: Efficient Distributed Optimization under Heavy-Tailed Noise
- Title(参考訳): 重音下における効率的な分散最適化
- Authors: Su Hyeong Lee, Manzil Zaheer, Tian Li,
- Abstract要約: TailOPTは、潜在的に勾配のばらつきと局所的な更新を伴うヘビーテールノイズに対処するように設計されている。
Bi2Clip$は、インナーとアウターの両方でコーディネートワイドクリッピングを行い、アダプティブライクなパフォーマンスを実現する。
この$Bi2Clip$は、いくつかの言語タスクやモデルにおいて優れたパフォーマンスを示し、最先端のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 32.96984712007111
- License:
- Abstract: Distributed optimization has become the default training paradigm in modern machine learning due to the growing scale of models and datasets. To mitigate communication overhead, local updates are often applied before global aggregation, resulting in a nested optimization approach with inner and outer steps. However, heavy-tailed stochastic gradient noise remains a significant challenge, particularly in attention-based models, hindering effective training. In this work, we propose TailOPT, an efficient framework designed to address heavy-tailed noise by leveraging adaptive optimization or clipping techniques. We establish convergence guarantees for the TailOPT framework under heavy-tailed noise with potentially unbounded gradient variance and local updates. Among its variants, we highlight a memory and communication efficient instantiation which we call $Bi^2Clip$, which performs coordinate-wise clipping at both the inner and outer optimizers, achieving adaptive-like performance (e.g., Adam) without the cost of maintaining or transmitting additional gradient statistics. Empirically, TailOPT, including $Bi^2Clip$, demonstrates superior performance on several language tasks and models, outperforming state-of-the-art methods.
- Abstract(参考訳): 分散最適化は、モデルとデータセットの増大により、現代の機械学習におけるデフォルトのトレーニングパラダイムとなっている。
通信オーバーヘッドを軽減するため、グローバルアグリゲーションの前にローカル更新がしばしば適用され、内部および外部ステップによるネスト最適化アプローチが実現される。
しかし、重尾の確率勾配雑音は、特に注意に基づくモデルにおいて重要な課題であり、効果的な訓練を妨げる。
本研究では,適応最適化やクリッピング技術を活用して重み付き雑音に対処する効率的なフレームワークであるTailOPTを提案する。
重み付き雑音下でのTailOPTフレームワークの収束保証と、潜在的に非有界な勾配分散と局所的な更新を確立する。
メモリと通信の効率の良いインスタンス化は、内部と外部のオプティマイザの両方でコーディネートワイズクリッピングを行う$Bi^2Clip$と呼ばれ、アダプティブライクなパフォーマンス(例えばAdam)を実現する。
実証的に、$Bi^2Clip$を含むTailOPTは、いくつかの言語タスクやモデルにおいて優れたパフォーマンスを示し、最先端のメソッドよりも優れています。
関連論文リスト
- Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Regularized second-order optimization of tensor-network Born machines [2.8834278113855896]
ボルンマシン(英: Born Machine、TNBM)は、データ分布を学習するための量子インスパイアされた生成モデルである。
そこで本研究では,TNBMトレーニングにおける2次最適化手法を改良し,収束率と最適化モデルの品質を大幅に向上させる。
論文 参考訳(メタデータ) (2025-01-30T19:00:04Z) - Privacy without Noisy Gradients: Slicing Mechanism for Generative Model Training [10.229653770070202]
差分プライバシ(DP)を持つ生成モデルを訓練するには、通常、勾配更新にノイズを注入するか、判別器の訓練手順を適用する必要がある。
プライベートデータのランダムな低次元投影にノイズを注入するスライシングプライバシ機構について考察する。
本稿では,この分散性を考慮したカーネルベース推定器を提案し,対角訓練の必要性を回避した。
論文 参考訳(メタデータ) (2024-10-25T19:32:58Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Online Sensitivity Optimization in Differentially Private Learning [8.12606646175019]
クリッピング閾値を動的に最適化する新しい手法を提案する。
我々は、このしきい値を学習可能なパラメータとして扱い、しきい値とコスト関数のクリーンな関係を確立する。
提案手法は, 多様なデータセット, タスク, モデル次元, プライバシレベルにまたがる代替的かつ適応的な戦略に対して, 徹底的に評価される。
論文 参考訳(メタデータ) (2023-10-02T00:30:49Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Smoothness Matrices Beat Smoothness Constants: Better Communication
Compression Techniques for Distributed Optimization [10.592277756185046]
大規模分散最適化は、教師付き機械学習モデルのトレーニングのデフォルトツールとなっている。
我々は,局所的損失に伴う滑らかさ行列を最大限に活用できる新しいコミュニケーションスパーシフィケーション戦略を提案する。
論文 参考訳(メタデータ) (2021-02-14T20:55:02Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。