Fugu-MT 論文翻訳(概要): Efficient Distributed Optimization under Heavy-Tailed Noise

論文の概要: Efficient Distributed Optimization under Heavy-Tailed Noise

arxiv url: http://arxiv.org/abs/2502.04164v1
Date: Thu, 06 Feb 2025 15:47:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-07 15:30:40.824624
Title: Efficient Distributed Optimization under Heavy-Tailed Noise
Title（参考訳）: 重音下における効率的な分散最適化
Authors: Su Hyeong Lee, Manzil Zaheer, Tian Li,
Abstract要約: TailOPTは、潜在的に勾配のばらつきと局所的な更新を伴うヘビーテールノイズに対処するように設計されている。 Bi2Clip$は、インナーとアウターの両方でコーディネートワイドクリッピングを行い、アダプティブライクなパフォーマンスを実現する。この$Bi2Clip$は、いくつかの言語タスクやモデルにおいて優れたパフォーマンスを示し、最先端のメソッドよりも優れています。
参考スコア（独自算出の注目度）: 32.96984712007111
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Distributed optimization has become the default training paradigm in modern machine learning due to the growing scale of models and datasets. To mitigate communication overhead, local updates are often applied before global aggregation, resulting in a nested optimization approach with inner and outer steps. However, heavy-tailed stochastic gradient noise remains a significant challenge, particularly in attention-based models, hindering effective training. In this work, we propose TailOPT, an efficient framework designed to address heavy-tailed noise by leveraging adaptive optimization or clipping techniques. We establish convergence guarantees for the TailOPT framework under heavy-tailed noise with potentially unbounded gradient variance and local updates. Among its variants, we highlight a memory and communication efficient instantiation which we call $Bi^2Clip$, which performs coordinate-wise clipping at both the inner and outer optimizers, achieving adaptive-like performance (e.g., Adam) without the cost of maintaining or transmitting additional gradient statistics. Empirically, TailOPT, including $Bi^2Clip$, demonstrates superior performance on several language tasks and models, outperforming state-of-the-art methods.
Abstract（参考訳）: 分散最適化は、モデルとデータセットの増大により、現代の機械学習におけるデフォルトのトレーニングパラダイムとなっている。通信オーバーヘッドを軽減するため、グローバルアグリゲーションの前にローカル更新がしばしば適用され、内部および外部ステップによるネスト最適化アプローチが実現される。しかし、重尾の確率勾配雑音は、特に注意に基づくモデルにおいて重要な課題であり、効果的な訓練を妨げる。本研究では,適応最適化やクリッピング技術を活用して重み付き雑音に対処する効率的なフレームワークであるTailOPTを提案する。重み付き雑音下でのTailOPTフレームワークの収束保証と、潜在的に非有界な勾配分散と局所的な更新を確立する。メモリと通信の効率の良いインスタンス化は、内部と外部のオプティマイザの両方でコーディネートワイズクリッピングを行う$Bi^2Clip$と呼ばれ、アダプティブライクなパフォーマンス(例えばAdam)を実現する。実証的に、$Bi^2Clip$を含むTailOPTは、いくつかの言語タスクやモデルにおいて優れたパフォーマンスを示し、最先端のメソッドよりも優れています。

関連論文リスト

Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文参考訳（メタデータ） (2025-03-17T22:18:24Z)
Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。 Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。 DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文参考訳（メタデータ） (2025-02-08T01:20:09Z)
Regularized second-order optimization of tensor-network Born machines [2.8834278113855896]
ボルンマシン(英: Born Machine、TNBM)は、データ分布を学習するための量子インスパイアされた生成モデルである。そこで本研究では,TNBMトレーニングにおける2次最適化手法を改良し,収束率と最適化モデルの品質を大幅に向上させる。
論文参考訳（メタデータ） (2025-01-30T19:00:04Z)
Privacy without Noisy Gradients: Slicing Mechanism for Generative Model Training [10.229653770070202]
差分プライバシ(DP)を持つ生成モデルを訓練するには、通常、勾配更新にノイズを注入するか、判別器の訓練手順を適用する必要がある。プライベートデータのランダムな低次元投影にノイズを注入するスライシングプライバシ機構について考察する。本稿では,この分散性を考慮したカーネルベース推定器を提案し,対角訓練の必要性を回避した。
論文参考訳（メタデータ） (2024-10-25T19:32:58Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Online Sensitivity Optimization in Differentially Private Learning [8.12606646175019]
クリッピング閾値を動的に最適化する新しい手法を提案する。我々は、このしきい値を学習可能なパラメータとして扱い、しきい値とコスト関数のクリーンな関係を確立する。提案手法は, 多様なデータセット, タスク, モデル次元, プライバシレベルにまたがる代替的かつ適応的な戦略に対して, 徹底的に評価される。
論文参考訳（メタデータ） (2023-10-02T00:30:49Z)
G-TRACER: Expected Sharpness Optimization [1.2183405753834562]
G-TRACERは、平坦なミニマムを求めることによって一般化を促進し、一般化ベイズ目標の自然な漸進的な降下に基づく最適化への近似として音理論的基礎を持つ。本手法は,非正規化対象の局所最小値近傍に収束し,多数のベンチマークコンピュータビジョンとNLPデータセット上での競合性能を示す。
論文参考訳（メタデータ） (2023-06-24T09:28:49Z)
Large-Batch, Iteration-Efficient Neural Bayesian Design Optimization [37.339567743948955]
本稿では,BOの限界に対処するための新しいベイズ最適化フレームワークを提案する。我々の重要な貢献は、高度にスケーラブルでサンプルベースの取得機能であり、非支配的な目的のソートを実行する。我々は,ベイズ型ニューラルネットワークサロゲートと組み合わせることで,最小限の反復数でデータ集約環境に有効であることを示す。
論文参考訳（メタデータ） (2023-06-01T19:10:57Z)
Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。この2つの設定の間には自然なシナジーがあることが示されています。この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文参考訳（メタデータ） (2021-11-25T19:59:33Z)
Smoothness Matrices Beat Smoothness Constants: Better Communication Compression Techniques for Distributed Optimization [10.592277756185046]
大規模分散最適化は、教師付き機械学習モデルのトレーニングのデフォルトツールとなっている。我々は,局所的損失に伴う滑らかさ行列を最大限に活用できる新しいコミュニケーションスパーシフィケーション戦略を提案する。
論文参考訳（メタデータ） (2021-02-14T20:55:02Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。提案手法の順序の順序による時間収束を,総じて低減する。
論文参考訳（メタデータ） (2020-05-21T20:59:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。