論文の概要: DASH: Faster Shampoo via Batched Block Preconditioning and Efficient Inverse-Root Solvers
- arxiv url: http://arxiv.org/abs/2602.02016v1
- Date: Mon, 02 Feb 2026 12:14:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.135194
- Title: DASH: Faster Shampoo via Batched Block Preconditioning and Efficient Inverse-Root Solvers
- Title(参考訳): DASH: バッチブロックプレコンディショニングと効率的な逆根解法によるより高速なシャンプー
- Authors: Ionut-Vlad Modoranu, Philip Zmushko, Erik Schultheis, Mher Safaryan, Dan Alistarh,
- Abstract要約: シャンプー(英: Shampoo)は、二階近似計算の1つである。
Shampooの適用には、内部運用が高価なため、大幅な減速が伴う。
本稿では,Newton-DBイテレーションとChebyshevs近似を,シャンプーが必要とする逆行列根を計算するための,新しい高速なアプローチとして紹介する。
- 参考スコア(独自算出の注目度): 43.48694923232831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shampoo is one of the leading approximate second-order optimizers: a variant of it has won the MLCommons AlgoPerf competition, and it has been shown to produce models with lower activation outliers that are easier to compress. Yet, applying Shampoo currently comes at the cost of significant computational slowdown, due to its expensive internal operations. In this paper, we take a significant step to address this shortcoming by proposing \method (for \textbf{D}istributed \textbf{A}ccelerated \textbf{SH}ampoo), a faster implementation of Distributed Shampoo based on two main new techniques: First, we show that preconditioner blocks can be stacked into 3D tensors to significantly improve GPU utilization; second, we introduce the Newton-DB iteration and the Chebyshev polynomial approximations as novel and faster approaches for computing the inverse matrix roots required by Shampoo. Along with these algorithmic contributions, we provide a first in-depth analysis of how matrix scaling critically affects Shampoo convergence. On the practical side, our GPU-aware implementation achieves up to $4.83\times$ faster optimizer steps compared to the well-optimized Distributed Shampoo, while Newton-DB attains the lowest validation perplexity per iteration among all tested methods. Our code is available at https://github.com/IST-DASLab/DASH.
- Abstract(参考訳): MLCommons AlgoPerfコンペティションで優勝し、より圧縮しやすいアクティベーションアウトリーの低いモデルを生成することが示されている。
しかし、Shampooの適用には、その高価な内部運用のため、計算の大幅な減速が伴う。
本稿では、まず、プリコンディショナーブロックを3次元テンソルに積み重ねてGPU利用を大幅に改善することを示し、次に、Newton-DBイテレーションとChebyshev多項式近似を、Shampooが必要とする逆行列根を計算するための新規で高速なアプローチとして紹介する。
これらのアルゴリズム的な貢献とともに、行列のスケーリングがシャンプー収束にどのように影響するかを、初めて詳細に分析する。
実用面では、我々のGPU対応実装は、最適化されたDistributed Shampooと比較して最大4.83\times$高速なオプティマイザステップを実現しています。
私たちのコードはhttps://github.com/IST-DASLab/DASHで公開されています。
関連論文リスト
- Memory-Efficient Acceleration of Block Low-Rank Foundation Models on Resource Constrained GPUs [11.45717904490388]
トランスフォーマーベースの基盤モデルの最近の進歩は、多くのタスクのデフォルト選択となった。
その急速に成長するサイズは、単一のGPUに完全なモデルを適合させることがますます難しくなり、計算コストが禁じられる。
ブロック低ランク(BLR)圧縮技術は、重み行列のコンパクト表現を学習することでこの問題に対処する。
論文 参考訳(メタデータ) (2025-12-24T00:41:13Z) - A New Perspective on Shampoo's Preconditioner [15.817248348533353]
2階最適化アルゴリズムであるShampooは最近、機械学習コミュニティからの注目を集めている。
我々は、これらの行列の $textit$ Kronecker 積近似と Shampoo による近似との明示的で斬新な接続を提供する。
さまざまなデータセットで、最適なKronecker製品近似に近いことを実証的に実証する。
論文 参考訳(メタデータ) (2024-06-25T17:34:51Z) - A Computationally Efficient Sparsified Online Newton Method [48.78646010774149]
Sparsified Online Newton (SONew) はメモリ効率の良い2次アルゴリズムである。
最大で30%の高速化,3.4%の妥当性向上,80%のトレーニング損失の相対的改善を実現しています。
論文 参考訳(メタデータ) (2023-11-16T18:44:22Z) - Decreasing the Computing Time of Bayesian Optimization using
Generalizable Memory Pruning [56.334116591082896]
本稿では,任意のサロゲートモデルと取得関数で使用可能なメモリプルーニングとバウンダリ最適化のラッパーを示す。
BOを高次元または大規模データセット上で実行することは、この時間の複雑さのために難解になる。
すべてのモデル実装はMIT Supercloudの最先端コンピューティングハードウェア上で実行される。
論文 参考訳(メタデータ) (2023-09-08T14:05:56Z) - Second-order optimization with lazy Hessians [55.51077907483634]
一般の非線形最適化問題を解くためにニュートンの遅延ヘッセン更新を解析する。
我々は、メソッドの各ステップで新しい勾配を計算しながら、これまで見られたヘッセン反復を再利用する。
論文 参考訳(メタデータ) (2022-12-01T18:58:26Z) - Decomposed Quadratization: Efficient QUBO Formulation for Learning Bayesian Network [9.13755431537592]
二次的非制約二元最適化(QUBO)問題は近年大きな進歩を遂げている。
目的関数におけるバイナリ変数の数を最小限にすることが不可欠である。
そこで本研究では,従来の二次化手法よりもビット容量に有利なQUBOの定式化を提案する。
論文 参考訳(メタデータ) (2020-06-12T03:19:48Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。