論文の概要: Scaling Embeddings Outperforms Scaling Experts in Language Models
- arxiv url: http://arxiv.org/abs/2601.21204v1
- Date: Thu, 29 Jan 2026 03:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.536299
- Title: Scaling Embeddings Outperforms Scaling Experts in Language Models
- Title(参考訳): 言語モデルにおけるエキスパートのスケーリングに優れたエンベディングのスケーリング
- Authors: Hong Liu, Jiaqi Zhang, Chao Wang, Xing Hu, Linkun Lyu, Jiaqi Sun, Xurui Yang, Bo Wang, Fengcun Li, Yulei Qian, Lingtong Si, Yerui Sun, Rumei Li, Peng Pei, Yuchen Xie, Xunliang Cai,
- Abstract要約: ポーラシティをスケーリングするための強力な次元として、埋め込みスケーリングについて検討する。
68.5BパラメータモデルであるLongCat-Flash-Liteを導入する。
LongCat-Flash-Liteはパラメータ等価なMoEベースラインを超えるだけでなく、同等のスケールの既存のモデルに対して非常に競争力がある。
- 参考スコア(独自算出の注目度): 25.29349741727901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Mixture-of-Experts (MoE) architectures have become the standard for sparsity scaling in large language models, they increasingly face diminishing returns and system-level bottlenecks. In this work, we explore embedding scaling as a potent, orthogonal dimension for scaling sparsity. Through a comprehensive analysis and experiments, we identify specific regimes where embedding scaling achieves a superior Pareto frontier compared to expert scaling. We systematically characterize the critical architectural factors governing this efficacy -- ranging from parameter budgeting to the interplay with model width and depth. Moreover, by integrating tailored system optimizations and speculative decoding, we effectively convert this sparsity into tangible inference speedups. Guided by these insights, we introduce LongCat-Flash-Lite, a 68.5B parameter model with ~3B activated trained from scratch. Despite allocating over 30B parameters to embeddings, LongCat-Flash-Lite not only surpasses parameter-equivalent MoE baselines but also exhibits exceptional competitiveness against existing models of comparable scale, particularly in agentic and coding domains.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、大規模な言語モデルにおけるスパーシティスケーリングの標準となっているが、リターンの減少とシステムレベルのボトルネックに直面している。
本研究は,空間を拡大するための強力な直交次元としての埋め込みスケーリングについて検討する。
包括的分析と実験により、埋め込みスケーリングがエキスパートスケーリングよりも優れたParetoフロンティアを実現する特定のレギュレーションを特定する。
我々は、パラメータ予算化からモデル幅と深さとの相互作用まで、この効果を管理する重要なアーキテクチャ要素を体系的に特徴づける。
さらに,システム最適化と投機的復号化を組み合わせることで,この空間を有形推論の高速化に効果的に変換する。
これらの知見に導かれ、68.5BのパラメータモデルであるLongCat-Flash-Liteを紹介します。
30B 以上のパラメータを埋め込みに割り当てているにもかかわらず、LongCat-Flash-Lite はパラメータ等価な MoE ベースラインを超えるだけでなく、特にエージェントドメインやコーディングドメインにおいて、比較スケールの既存のモデルに対して非常に競争力がある。
関連論文リスト
- Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models [10.517704202614091]
sparse Mixture-of-Experts (MoEs) は、例ごとのFLOPを比例的に増やさずにパラメータの数をスケールできる。
本研究では,不活性パラメータの比率が,事前学習および下流数ショット評価におけるモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-21T18:51:15Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。