論文の概要: What Really Matters in Matrix-Whitening Optimizers?
- arxiv url: http://arxiv.org/abs/2510.25000v1
- Date: Tue, 28 Oct 2025 21:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.804028
- Title: What Really Matters in Matrix-Whitening Optimizers?
- Title(参考訳): マトリックス白金オプティマイザには何が重要か?
- Authors: Kevin Frans, Pieter Abbeel, Sergey Levine,
- Abstract要約: 行列白化法は要素的に確実に優れていることを示す。
ベト・アダプテッド・バージョンは、サイン・ディフレッシュ・バージョンよりも一貫して上回っている。
低ランク分散推定器は性能損失を伴わずにメモリコストを効果的に削減できる。
- 参考スコア(独自算出の注目度): 99.7641280234926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A range of recent optimizers have emerged that approximate the same "matrix-whitening" transformation in various ways. In this work, we systematically deconstruct such optimizers, aiming to disentangle the key components that explain performance. Across tuned hyperparameters across the board, all flavors of matrix-whitening methods reliably outperform elementwise counterparts, such as Adam. Matrix-whitening is often related to spectral descent -- however, experiments reveal that performance gains are *not explained solely by accurate spectral normalization* -- particularly, SOAP displays the largest per-step gain, even though Muon more accurately descends along the steepest spectral descent direction. Instead, we argue that matrix-whitening serves two purposes, and the variance adaptation component of matrix-whitening is the overlooked ingredient explaining this performance gap. Experiments show that variance-adapted versions of optimizers consistently outperform their sign-descent counterparts, including an adaptive version of Muon. We further ablate variance adaptation strategies, finding that while lookahead style approximations are not as effective, low-rank variance estimators can effectively reduce memory costs without a performance loss.
- Abstract(参考訳): 様々な方法で同じ「マトリクス白化」変換を近似する、最近のオプティマイザが出現している。
本研究では,このような最適化手法を体系的に分解し,性能を説明する重要なコンポーネントを分解することを目的としている。
ボード全体に調整されたハイパーパラメーターを横切ると、マトリックス白化法はアダムのような要素的にも確実に優れている。
マトリックスホワイトニングは、しばしばスペクトル降下と関係がある -- しかし、実験では、パフォーマンスの上昇は*正確なスペクトル正規化だけでは説明されない* ことを示しており、特にSOAPは、最も急なスペクトル降下方向に沿って正確に降下しているにもかかわらず、最も大きなステップ当たりの利得を示している。
その代わりに,行列白化は2つの目的を果たすと論じ,行列白化の分散適応成分はこの性能ギャップを説明するために見過ごされた要素である。
実験により、分散適応型最適化器は、適応型Muonを含む符号の異なる最適化器よりも一貫して優れていることが示された。
我々はさらに分散適応戦略を緩和し、ルックアヘッドスタイルの近似は効果が低いが、低ランク分散推定器は性能損失を伴わずにメモリコストを効果的に削減できることを示した。
関連論文リスト
- Controllable Feature Whitening for Hyperparameter-Free Bias Mitigation [26.926297904648393]
ディープニューラルネットワークは、データセットに存在する急激な相関を学習することができる。
目的とバイアスの特徴の線形相関を共分散行列により定量化し, ホワイトニングモジュールを通して除去する。
提案手法は,4つのベンチマークデータセットにおける既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-27T14:01:30Z) - Efficient Adaptation of Pre-trained Vision Transformer underpinned by Approximately Orthogonal Fine-Tuning Strategy [57.54306942529943]
約直交微調整(AOFT)による低ランク重量行列の表現法を提案する。
本手法は,下流画像分類タスクにおける競合性能を実現する。
論文 参考訳(メタデータ) (2025-07-17T16:09:05Z) - DiffoRA: Enabling Parameter-Efficient Fine-Tuning via Differential Module Selection [32.369133126167085]
Low-Rank Adaptation (LoRA) は、既存のトレーニング済みモデルに低ランク行列を組み込むことで、その合理化設計で人気を博している。
本稿では,低ランク分解行列を適応的に適用可能なDiffoRAを提案する。
論文 参考訳(メタデータ) (2025-02-13T02:41:34Z) - Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - Spectrum-Aware Parameter Efficient Fine-Tuning for Diffusion Models [73.88009808326387]
生成モデルのための新しいスペクトル対応適応フレームワークを提案する。
本手法は,事前学習した重みの特異値とその基底ベクトルを調節する。
本稿では,計算効率と表現能力のバランスをとるスペクトルオーソ分解適応(SODA)を提案する。
論文 参考訳(メタデータ) (2024-05-31T17:43:35Z) - AGD: an Auto-switchable Optimizer using Stepwise Gradient Difference for Preconditioning Matrix [8.975415409709575]
本稿では,2段階の勾配差を対角線要素として利用して,プレコンディショニング行列の設計手法を提案する。
我々は、自然言語コンピュータビジョン(CV)とレコメンデーションシステム(RecSys)の一般化に関するAGDの評価を行った。
論文 参考訳(メタデータ) (2023-12-04T06:20:14Z) - Improving Generalization of Batch Whitening by Convolutional Unit
Optimization [24.102442375834084]
バッチホワイトニング(Batch Whitening)は、入力特徴をゼロ平均(Centering)と単位分散(Scaling)に変換することで、トレーニングを加速し、安定化する技術である。
バッチ正規化を経験的に最適化した一般的な構造では、正規化層は畳み込みとアクティベーション関数の間に現れる。
本稿では,この理論に則った新しい畳み込み単位を提案する。
論文 参考訳(メタデータ) (2021-08-24T10:27:57Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。