論文の概要: Reparametrizing Shampoo and SOAP for Subspace Basis Updates and BFloat16 Storage
- arxiv url: http://arxiv.org/abs/2605.26327v1
- Date: Mon, 25 May 2026 21:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.465184
- Title: Reparametrizing Shampoo and SOAP for Subspace Basis Updates and BFloat16 Storage
- Title(参考訳): サブスペースバス更新とBFloat16ストレージのためのシャンプーとSOAPの再パラメータ化
- Authors: Alan Milligan, Zikun Xu, Simon Lacoste-Julien, Felix Dangel, Wu Lin,
- Abstract要約: KL-ShampooやSOAPといったシャンプーベースの手法は、ニューラルネットワークのトレーニングにおいて強力なパフォーマンスを示している。
本稿では,BFP16ストレージをサポートするプリコンディショナーの再パラメータ化を提案する。
私たちのアプローチは、KL-Shampoo、SOAP、KL-SOAPなど、QR分解を利用するShampooベースのメソッドに広く適用されます。
- 参考スコア(独自算出の注目度): 24.36756451504259
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Shampoo-based methods, such as KL-Shampoo and SOAP, have demonstrated strong performance in training neural networks and rely on QR decomposition. Because existing QR implementations require single-precision (FP32) arithmetic and remain computationally expensive, these methods become time- and memory-intensive when their preconditioning matrices are large. Moreover, using BFloat16 (BFP16) storage to reduce memory usage can degrade the performance of Shampoo-based methods. We propose a reparametrization of the preconditioner that supports BFP16 storage and forms a complete basis by combining updated basis vectors with unchanged ones. By updating only part of the basis through QR decomposition in a subspace, our approach reduces computational overhead while mitigating the performance degradation caused by BFP16 storage. Our approach applies broadly to Shampoo-based methods that employ QR decomposition, including KL-Shampoo, SOAP, and KL-SOAP. In particular, it improves the performance of SOAP and KL-SOAP under BFP16 storage, enabling KL-SOAP to match or exceed KL-Shampoo. Overall, our approach makes Shampoo-based methods more memory- and time-efficient.
- Abstract(参考訳): KL-ShampooやSOAPといったシャンプーベースの手法は、ニューラルネットワークのトレーニングにおいて強力なパフォーマンスを示し、QR分解に依存している。
既存のQR実装では、シングル精度(FP32)演算が必要であり、計算コストも高いため、プリコンディショニング行列が大きいと、これらのメソッドは時間とメモリ集約的になる。
さらに、メモリ使用量を減らすためにBFloat16(BFP16)ストレージを使用すると、シャンプーベースのメソッドのパフォーマンスが低下する可能性がある。
本稿では,BFP16ストレージをサポートするプリコンディショナーの再パラメータ化を提案する。
BFP16ストレージによる性能劣化を軽減しつつ,部分空間におけるQR分解による基礎部分のみを更新することにより,計算オーバーヘッドを低減する。
私たちのアプローチは、KL-Shampoo、SOAP、KL-SOAPなど、QR分解を利用するShampooベースのメソッドに広く適用されます。
特に、BFP16ストレージ下でのSOAPとKL-SOAPのパフォーマンスを改善し、KL-SOAPがKL-Shampooに適合または超えるようにする。
全体として、私たちのアプローチはシャンプーベースのメソッドをよりメモリ効率と時間効率にします。
関連論文リスト
- DegBins: Degradation-Driven Binning for Depth Super-Resolution [57.61783461543096]
DegBinsは、劣化駆動のビンニングを利用して残留モデリングを適応的に強化する新しいDSRフレームワークである。
DegBinsは、精度、堅牢性、一般化の観点から、既存の最先端メソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-10T16:17:11Z) - Beyond SGD, Without SVD: Proximal Subspace Iteration LoRA with Diagonal Fractional K-FAC [50.36542772932594]
Low-Rank Adaptation (LoRA) は、凍結重量の上の低ランク更新を学習することで、大きなモデルを微調整する。
本研究では,ローランクプロジェクション(SVDLoRA)とローラファインチューニング(LoRAファインタニング)のフルステップでのトレーニングのギャップに対処する。
勾配降下のギャップを埋めるメモリ効率の良いサブルーチンであるLoRSumを提案する。
論文 参考訳(メタデータ) (2026-02-18T13:41:41Z) - PGP-DiffSR: Phase-Guided Progressive Pruning for Efficient Diffusion-based Image Super-Resolution [95.61422489193113]
拡散モデルから冗長情報を除去する軽量拡散法 PGP-DiffSR を開発した。
本手法は,計算負荷とメモリ消費を大幅に削減しつつ,競合する復元品質を実現する。
論文 参考訳(メタデータ) (2025-12-02T12:06:39Z) - Understanding and Improving Shampoo and SOAP via Kullback-Leibler Minimization [22.631895671087534]
私たちは、SOAPレベル/イットランタイムを達成しながら、事前トレーニングにおいて、ShampooとSOAPのパフォーマンスに適合または超過するスキームを開発します。
KL-Shampooは一貫してSOAP、Shampoo、さらにはKL-SOAPよりも優れており、NN最適化における構造化メソッドを設計するための魅力的な基盤としてKLベースのアプローチを確立している。
論文 参考訳(メタデータ) (2025-09-03T14:55:15Z) - SOAP: Improving and Stabilizing Shampoo using Adam [10.191020824781756]
この研究はシャンプーとアダファクトの間の公式な関係を確立している。
AdafactorはAdamのメモリ効率の近似である。
シャンプーのプレコンディショナーの固有ベイズにおいて,シャンプーがAdafactorを実行することと等価であることを示す。
論文 参考訳(メタデータ) (2024-09-17T16:18:05Z) - Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。
本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-11T08:42:58Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - Does Continual Learning Equally Forget All Parameters? [55.431048995662714]
連続学習(CL)における分散シフト(タスクやドメインシフトなど)は通常、ニューラルネットワークを壊滅的に忘れてしまう。
ニューラルネットワークのどのモジュールが、CL中のトレーニングダイナミクスを調査することによって忘れやすいかを検討する。
CL中に周期的にトリガされるFPFの1段階ごとのリプレイを完全に取り除き,わずか$k$で置き換える,より効率的でシンプルな手法を提案する。
論文 参考訳(メタデータ) (2023-04-09T04:36:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。