論文の概要: TEON: Tensorized Orthonormalization Beyond Layer-Wise Muon for Large Language Model Pre-Training
- arxiv url: http://arxiv.org/abs/2601.23261v2
- Date: Mon, 02 Feb 2026 16:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:32.924109
- Title: TEON: Tensorized Orthonormalization Beyond Layer-Wise Muon for Large Language Model Pre-Training
- Title(参考訳): TEON: 大規模言語モデル事前トレーニングのためのレイヤワイズムーンを越えたテンソル化オーソノマリゼーション
- Authors: Ruijie Zhang, Yequan Zhao, Ziyue Liu, Zhengyang Wang, Dongyang Li, Yupeng Su, Sijia Liu, Zheng Zhang,
- Abstract要約: Muon の一般化は、事前学習された大きな言語モデルにおいて、強い経験的性能を示している。
本研究では,直交化を個々の層を超えて拡張するムオンの原理的一般化であるTEONを提案する。
本稿では,レイヤワイドミューオンに対するTEONの収束保証を改良し,TEONの実用的なインスタンス化をさらに発展させる。
- 参考スコア(独自算出の注目度): 30.25761898761426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Muon optimizer has demonstrated strong empirical performance in pre-training large language models by performing matrix-level gradient (or momentum) orthogonalization in each layer independently. In this work, we propose TEON, a principled generalization of Muon that extends orthogonalization beyond individual layers by modeling the gradients of a neural network as a structured higher-order tensor. We present TEON's improved convergence guarantee over layer-wise Muon, and further develop a practical instantiation of TEON based on the theoretical analysis with corresponding ablation. We evaluate our approach on two widely adopted architectures: GPT-style models, ranging from 130M to 774M parameters, and LLaMA-style models, ranging from 60M to 1B parameters. Experimental results show that TEON consistently improves training and validation perplexity across model scales and exhibits strong robustness under various approximate SVD schemes.
- Abstract(参考訳): Muonオプティマイザは、各層で行列レベル勾配(または運動量)の直交化を独立に行うことにより、事前学習された大きな言語モデルにおいて、強い経験的性能を示した。
本研究では,ニューラルネットワークの勾配を高次テンソル構造としてモデル化することにより,個々の層を超えて直交するMuonの原理的一般化であるTEONを提案する。
本稿では,レイヤワイドミューオンに対するTEONの収束保証を改良し,それに対応するアブレーションによる理論的解析に基づいてTEONの実用的なインスタンス化を開発する。
我々は、GPT型モデル(130Mから774Mまで)とLLaMA型モデル(60Mから1Bまで)の2つの広く採用されているアーキテクチャに対するアプローチを評価した。
実験の結果,TEONはモデルスケール間のトレーニングと検証の難易度を一貫して改善し,様々な近似SVDスキームの下で強い堅牢性を示すことがわかった。
関連論文リスト
- Nanbeige4-3B Technical Report: Exploring the Frontier of Small Language Models [23.832817775138675]
Nanbeige4-3Bは小型だが高性能な言語モデルである。
23Tの高品質トークンで事前訓練され、3000万以上の多様な命令に基づいて微調整され、小型言語モデルのスケーリング法則の境界を広げる。
論文 参考訳(メタデータ) (2025-12-06T03:36:27Z) - BigBang-Proton Technical Report: Next-Word-Prediction is Scientific Multitask Learner [8.599603915677365]
BigBang-Protonは自動回帰言語モデリングのための統合シーケンスベースのアーキテクチャである。
BigBang-Protonは、クロススケール、クロス構造、クロスディシデントな現実世界の科学的なタスクを予習した。
論文 参考訳(メタデータ) (2025-09-30T18:09:18Z) - Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - Muon: Training and Trade-offs with Latent Attention and MoE [4.500362688166346]
小型・中型デコーダ(30M-200Mパラメータ)のみで変圧器を訓練するためのMuonの総合的理論的・実証的研究について述べる。
厳密な理論解析として, (i) 標準仮定による収束率のショーイング, (ii) 勾配の爆発を防止するスペクトル正則化特性, (iii) スティーフェル多様体上の自然勾配降下への接続, (iv) スペクトルノルムによる最も急勾配降下への同値性などを挙げる。
論文 参考訳(メタデータ) (2025-09-29T07:51:06Z) - HAD: Hybrid Architecture Distillation Outperforms Teacher in Genomic Sequence Modeling [52.58723853697152]
DNA配列モデリングのためのハイブリッドアーキテクチャ蒸留(HAD)手法を提案する。
我々はNTv2-500Mを教師モデルとして採用し,グループマスキング戦略を考案した。
類似したパラメータを持つモデルと比較して,本モデルは優れた性能を示した。
論文 参考訳(メタデータ) (2025-05-27T07:57:35Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。