Fugu-MT 論文翻訳(概要): Sketchy: Memory-efficient Adaptive Regularization with Frequent Directions

論文の概要: Sketchy: Memory-efficient Adaptive Regularization with Frequent Directions

arxiv url: http://arxiv.org/abs/2302.03764v2
Date: Mon, 16 Oct 2023 23:51:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 22:43:00.121198
Title: Sketchy: Memory-efficient Adaptive Regularization with Frequent Directions
Title（参考訳）: Sketchy: 頻繁な方向を持つメモリ効率の適応正規化
Authors: Vladimir Feinberg, Xinyi Chen, Y. Jennifer Sun, Rohan Anil, Elad Hazan
Abstract要約: ディープラーニング(DL)学習タスクにおけるKronecker-factored gradient covariance matrixのスペクトルは、小さなリード固有空間に集中している。本稿では,行列プレコンディショナを維持するためのメモリと計算要求を低減させる汎用的手法について述べる。 ShampooやAdamと競合する手法で、第2の瞬間を追跡するにはサブ線形メモリしか必要ありません。
参考スコア（独自算出の注目度）: 22.09320263962004
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Adaptive regularization methods that exploit more than the diagonal entries exhibit state of the art performance for many tasks, but can be prohibitive in terms of memory and running time. We find the spectra of the Kronecker-factored gradient covariance matrix in deep learning (DL) training tasks are concentrated on a small leading eigenspace that changes throughout training, motivating a low-rank sketching approach. We describe a generic method for reducing memory and compute requirements of maintaining a matrix preconditioner using the Frequent Directions (FD) sketch. While previous approaches have explored applying FD for second-order optimization, we present a novel analysis which allows efficient interpolation between resource requirements and the degradation in regret guarantees with rank $k$: in the online convex optimization (OCO) setting over dimension $d$, we match full-matrix $d^2$ memory regret using only $dk$ memory up to additive error in the bottom $d-k$ eigenvalues of the gradient covariance. Further, we show extensions of our work to Shampoo, resulting in a method competitive in quality with Shampoo and Adam, yet requiring only sub-linear memory for tracking second moments.
Abstract（参考訳）: 対角エントリ以上を利用する適応正規化法は、多くのタスクでアートパフォーマンスの状態を示すが、メモリと実行時間の観点からは禁止される。深層学習(DL)訓練タスクにおけるKronecker-factored gradient covariance matrixのスペクトルは、トレーニングを通して変化する小さなリード固有空間に集中しており、ローランクスケッチのアプローチを動機付けている。本稿では,FDスケッチを用いた行列プレコンディショナの維持に必要なメモリと計算量を削減できる汎用手法について述べる。従来,2次最適化のためのFDの適用について検討してきたが,オンライン凸最適化 (OCO) 設定において,Dd$ 以上の条件で資源要求の効率的な補間と,次数$k$ による後悔の保証の低下を可能にする新たな解析手法を提案する。さらに,shampoo と adam との競合性は高いが,第2モーメントを追跡するにはサブリニアメモリしか必要としない。

関連論文リスト

Inertial Quadratic Majorization Minimization with Application to Kernel Regularized Learning [1.0282274843007797]
外部補間(QMME)フレームワークを導入し,その逐次収束特性を確立する。実効性を示すために,大規模カーネル正規化学習問題にQMMEを適用した。
論文参考訳（メタデータ） (2025-07-06T05:17:28Z)
FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models [49.397861654088636]
低次元空間へのSVD/QRベースの勾配射影を近似する2段階の手順を提案する。当社の戦略はランタイムの高速化とメモリ使用量の削減を,さまざまなモデルサイズで最大25%削減できることが示されています。
論文参考訳（メタデータ） (2025-05-23T14:37:00Z)
Better Rates for Private Linear Regression in the Proportional Regime via Aggressive Clipping [19.186034457189162]
一般的なアプローチは、サンプルごとの勾配の予想基準よりもクリッピング定数をはるかに大きく設定することである。しかし、分析を単純化する一方で、これは経験的証拠がパフォーマンスを最適化することを示唆しているものとは対照的である。我々の研究は、クリッピングが頻繁に起こる体制において、理論と実践のギャップを埋める。
論文参考訳（メタデータ） (2025-05-22T07:34:27Z)
FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [61.79405341803085]
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
論文参考訳（メタデータ） (2025-05-19T07:32:56Z)
Second-order Optimization of Gaussian Splats with Importance Sampling [51.95046424364725]
3D Gaussian Splatting (3DGS) は、高品質で高速な推論時間のため、新しいビューレンダリングに広く用いられている。本稿では,Levenberg-Marquardt (LM) と Conjugate Gradient (CG) に基づく新しい2階最適化手法を提案する。提案手法は標準LMよりも3倍の高速化を実現し,ガウス数が少ない場合のAdamを6倍の6倍の速さで上回る。
論文参考訳（メタデータ） (2025-04-17T12:52:08Z)
Efficient Adaptive Optimization via Subset-Norm and Subspace-Momentum: Fast, Memory-Reduced Training with Convergence Guarantees [5.399838579600896]
本稿では,メモリ最適化のための2つの補完手法を提案する。 1つのテクニックであるSubset-Normは、運動量状態のメモリフットプリントを低次元のサブスペースで削減する。別の手法であるSubspace-Momentumは、運動量状態のメモリフットプリントを低次元のサブスペースで削減する。
論文参考訳（メタデータ） (2024-11-11T16:48:07Z)
Online Mirror Descent for Tchebycheff Scalarization in Multi-Objective Optimization [14.970965673760427]
OMD-TCHと呼ばれるチェシュスカラー化のためのオンラインミラー降下アルゴリズムを提案する。我々は,OMD-TCHが,公正性制約下での合成問題とフェデレーション学習タスクの両方に有効であることを示す。
論文参考訳（メタデータ） (2024-10-29T05:58:33Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
MGDA Converges under Generalized Smoothness, Provably [27.87166415148172]
多目的最適化(MOO)はマルチタスク学習など様々な分野で注目を集めている。最近の研究は、理論解析を伴う効果的なアルゴリズムを提供しているが、それらは標準の$L$-smoothあるいは有界勾配仮定によって制限されている。一般化された$ell$-smooth損失関数のより一般的で現実的なクラスについて研究し、$ell$は勾配ノルムの一般非減少関数である。
論文参考訳（メタデータ） (2024-05-29T18:36:59Z)
Implicit Bias and Fast Convergence Rates for Self-attention [30.08303212679308]
トランスフォーマーのコアメカニズムであるセルフアテンションは、従来のニューラルネットワークと区別し、その優れたパフォーマンスを駆動する。固定線形復号器をバイナリに固定した自己アテンション層をトレーニングする際の勾配降下(GD)の暗黙バイアスについて検討した。 W_t$ から $W_mm$ に対する最初の有限時間収束率と、注意写像のスペーサー化率を提供する。
論文参考訳（メタデータ） (2024-02-08T15:15:09Z)
Iterative Reweighted Least Squares Networks With Convergence Guarantees for Solving Inverse Imaging Problems [12.487990897680422]
解析に基づく画像正規化における画像再構成タスクの新しい最適化手法を提案する。そのような正規化子は $ell_pp$-vector および $mathcalS_pp$ Schatten-matrix 準ノルムの重み付き拡張に対応するポテンシャル関数を用いてパラメータ化する。提案する最小化戦略の収束保証により,メモリ効率の高い暗黙バックプロパゲーション方式により,そのような最適化を成功させることができることを示す。
論文参考訳（メタデータ） (2023-08-10T17:59:46Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Smoothed Online Convex Optimization Based on Discounted-Normal-Predictor [68.17855675511602]
円滑なオンライン凸最適化(SOCO)のためのオンライン予測戦略について検討する。提案アルゴリズムは,各区間の切替コストで適応的後悔を最小限に抑えることができることを示す。
論文参考訳（メタデータ） (2022-05-02T08:48:22Z)
Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文参考訳（メタデータ） (2022-03-02T22:35:58Z)
Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。 BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文参考訳（メタデータ） (2021-06-17T10:14:43Z)
Effective Dimension Adaptive Sketching Methods for Faster Regularized Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文参考訳（メタデータ） (2020-06-10T15:00:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。