論文の概要: OrScale: Orthogonalised Optimization with Layer-Wise Trust-Ratio Scaling
- arxiv url: http://arxiv.org/abs/2605.07815v1
- Date: Fri, 08 May 2026 14:47:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.128577
- Title: OrScale: Orthogonalised Optimization with Layer-Wise Trust-Ratio Scaling
- Title(参考訳): OrScale: 層幅信頼率スケーリングによる直交最適化
- Authors: Yuxuan Lou, Yang You,
- Abstract要約: 天然のMuon-LAMBハイブリッド3種は, 形状劣化, 生モメンタムクリップ飽和, 脱重脱落, および崩壊がこれらの故障を回避していることを示す。
シンプルなルールに基づいて構築されたMuonの信頼度の高いレイヤ尺度であるOrScaleを紹介します。
- 参考スコア(独自算出の注目度): 10.699320611591332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Muon improves neural-network training by orthogonalizing matrix-valued updates, but it leaves each layer's update magnitude controlled mostly by a global learning rate. We introduce OrScale, a trust-ratio extension of Muon built on a simple rule: the denominator of a layer-wise ratio should measure the Frobenius norm of the actual parameter-space direction that will be applied. This yields OrScale for general matrix layers and OrScale-LM for language models, where Moonlight shape scaling is combined with one-time per-layer calibration so every trust ratio starts at one. We analyze why three natural Muon-LAMB hybrids fail through shape-degenerate denominators, raw-momentum clip saturation, and decoupled weight-decay runaway, and show that the real-update-direction denominator with coupled weight decay avoids these failures. Theoretically, OrScale admits an O(1/sqrt(T)) nonconvex convergence guarantee in a nuclear-norm criterion, a strict layer-adaptive descent gain under measurable layer heterogeneity, and calibration properties that preserve muP-style learning-rate transfer at initialization. Empirically, OrScale ranks first on CIFAR-10/DavidNet across three seeds, improving Muon from 93.70% to 94.05% validation top-1, and OrScale-LM improves FineWeb-Edu pre-training versus Muon+Moonlight at three of four scales from 125M to 1.1B parameters while outperforming AdamW at every scale.
- Abstract(参考訳): Muonは、行列値更新の直交化によってニューラルネットワークトレーニングを改善するが、各レイヤの更新サイズは、主にグローバルな学習率によって制御される。
レイヤーワイド比の分母は、適用される実際のパラメータ空間方向のフロベニウスノルムを測るべきである。
これにより、一般的な行列層ではOrScale、言語モデルではOrScale-LMが得られる。
3つの天然ムーン-LAMBハイブリッドが, 形状劣化型分母, 生モメンタムクリップ飽和, 脱カップ化重量脱離によって故障する原因を解析し, 重み劣化を併せ持つ実時間方向分母がこれらの故障を回避していることを示す。
理論的には、OrScaleはO(1/sqrt(T))非凸収束を保証する核ノルム基準、測定可能な層の不均一性の下での厳密な層適応降下、初期化時のmuP型学習速度移動を保存するキャリブレーション特性を認めている。
実証的には、OrScaleはCIFAR-10/DavidNetで3つの種にランクインし、Muonを93.70%から94.05%に改善し、OrScale-LMはFineWeb-Eduの事前トレーニングとMuon+Moonlightを125Mから1.1Bの4つのスケールで改善し、AdamWを各スケールで上回っている。
関連論文リスト
- Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video [76.32954467706581]
本稿では,生のビデオストリームからGEometric foundationモデルのスケーラブル適応を行うフレームワークであるSAGEを提案する。
階層的なマイニングパイプラインを使用して、ビデオをトレーニングトラジェクトリやハイブリッド監視に変換します。
実験の結果、SAGEはゼロショットの一般化を著しく向上し、チェムファー距離を20-42%削減した。
論文 参考訳(メタデータ) (2026-02-08T09:53:21Z) - MLPMoE: Zero-Shot Architectural Metamorphosis of Dense LLM MLPs into Static Mixture-of-Experts [0.0]
大規模言語モデル(LLM)は、主に高密度トランスフォーマーとしてデプロイされ、すべてのトークンに対してフィードフォワードブロック内の全てのパラメータがアクティブになる。
MoEfication、CMoE、ToMoE、MoOREといった最近のアップサイクリング手法は、高密度フィードフォワードネットワーク内の疎小で半モジュラーなサブ構造に有用な計算の大部分が存在していることを明らかにしている。
本稿では,高密度の変圧器ブロックを静的な高心性混合体に再構成する学習自由変換であるMoE(MLP-Experts)を紹介する。
論文 参考訳(メタデータ) (2025-11-26T06:14:26Z) - Diffusion Language Models are Super Data Learners [61.721441061210896]
ユニークなデータが限られている場合、拡散言語モデル(DLM)は、よりエポックなトレーニングによって、常に自己回帰モデル(AR)を上回ります。
本研究の目的は,(1) 任意の次数モデリング,(2) 反復的双方向 denoising からの超高次計算,(3) モンテカルロ増分という3つの複合的要因に起因する。
論文 参考訳(メタデータ) (2025-11-05T08:17:42Z) - MuonBP: Faster Muon via Block-Periodic Orthogonalization [24.232069944820513]
ベースラインからMuonBPへの学習率の調整方法を示し、このアルゴリズムの保証を与える。
8方向テンソルテンソルとZeROによる8Bモデルのトレーニングでは、ムオンBPは8%のムオンを達成でき、性能は劣化しない。
論文 参考訳(メタデータ) (2025-10-19T19:56:05Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Normalization Layer Per-Example Gradients are Sufficient to Predict Gradient Noise Scale in Transformers [2.1415873597974286]
比例勾配ノルムは、最小分散で勾配雑音スケール(GNS)を推定するための重要な要素である。
本稿では,パラメータ勾配を計算しながら基準を同時に計算することで,3次元あるいはそれ以上のテンソル状態におけるFLOPを最小化する手法を提案する。
現代変圧器モデルの総 GNS は正規化層のみの GNS によりよく予測されている。
論文 参考訳(メタデータ) (2024-11-01T19:50:00Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - NormFormer: Improved Transformer Pretraining with Extra Normalization [31.250781670447257]
NormFormerアーキテクチャは、各レイヤに3つの正規化操作を追加する。
余剰演算は無視可能な計算コストを発生させる。
マスク付き言語モデリングでは、NormFormerは微調整されたGLUEのパフォーマンスを1.9%改善した。
論文 参考訳(メタデータ) (2021-10-18T16:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。