論文の概要: STEM: Scaling Transformers with Embedding Modules
- arxiv url: http://arxiv.org/abs/2601.10639v1
- Date: Thu, 15 Jan 2026 18:00:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.252783
- Title: STEM: Scaling Transformers with Embedding Modules
- Title(参考訳): STEM: 組み込みモジュールによるトランスフォーマーのスケーリング
- Authors: Ranajoy Sadhukhan, Sheng Cao, Harry Dong, Changsheng Zhao, Attiano Purpura-Pontoniere, Yuandong Tian, Zechun Liu, Beidi Chen,
- Abstract要約: STEMは静的なトークンインデックス付きアプローチで、FFNのアッププロジェクションをレイヤローカルな埋め込みルックアップに置き換える。
これにより、ランタイムルーティングを廃止し、非同期プリフェッチによるCPUオフロードを可能にし、トーケン毎のFLOPとデバイス間通信の両方からキャパシティを分離する。
全体として、STEMはパラメトリックメモリのスケーリングに有効な方法であり、解釈性の向上、トレーニングの安定性の向上、効率の向上を実現している。
- 参考スコア(独自算出の注目度): 59.26825251273227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained sparsity promises higher parametric capacity without proportional per-token compute, but often suffers from training instability, load balancing, and communication overhead. We introduce STEM (Scaling Transformers with Embedding Modules), a static, token-indexed approach that replaces the FFN up-projection with a layer-local embedding lookup while keeping the gate and down-projection dense. This removes runtime routing, enables CPU offload with asynchronous prefetch, and decouples capacity from both per-token FLOPs and cross-device communication. Empirically, STEM trains stably despite extreme sparsity. It improves downstream performance over dense baselines while reducing per-token FLOPs and parameter accesses (eliminating roughly one-third of FFN parameters). STEM learns embedding spaces with large angular spread which enhances its knowledge storage capacity. More interestingly, this enhanced knowledge capacity comes with better interpretability. The token-indexed nature of STEM embeddings allows simple ways to perform knowledge editing and knowledge injection in an interpretable manner without any intervention in the input text or additional computation. In addition, STEM strengthens long-context performance: as sequence length grows, more distinct parameters are activated, yielding practical test-time capacity scaling. Across 350M and 1B model scales, STEM delivers up to ~3--4% accuracy improvements overall, with notable gains on knowledge and reasoning-heavy benchmarks (ARC-Challenge, OpenBookQA, GSM8K, MMLU). Overall, STEM is an effective way of scaling parametric memory while providing better interpretability, better training stability and improved efficiency.
- Abstract(参考訳): きめ細かい粒度は、比例計算なしでパラメトリック容量を高くするが、しばしばトレーニングの不安定性、ロードバランシング、通信オーバーヘッドに悩まされる。
STEM(Scaling Transformers with Embedding Modules)は,FFNのアッププロジェクションをゲートとダウンプロジェクションを密に保ちながら,レイヤローカルな埋め込みルックアップに置き換える,静的なトークンインデックス付きアプローチである。
これにより、ランタイムルーティングを廃止し、非同期プリフェッチによるCPUオフロードを可能にし、トーケン毎のFLOPとデバイス間通信の両方からキャパシティを分離する。
経験的に、STEMは極端に間隔があるにもかかわらず安定的に列車を運行する。
これにより、高密度ベースラインよりも下流のパフォーマンスが向上し、トークン毎のFLOPとパラメータアクセス(FFNパラメータの約3分の1)が削減される。
STEMは、その知識記憶能力を高めるために、大きな角展開を持つ埋め込み空間を学習する。
さらに興味深いことに、この強化された知識能力は、より良い解釈可能性をもたらす。
STEM埋め込みのトークンインデクシングの性質は、入力テキストや追加の計算を介さずに、解釈可能な方法で知識編集と知識注入を行う簡単な方法を可能にする。
さらに、STEMは、シーケンスの長さが大きくなるにつれて、より明確なパラメータが活性化され、実用的なテスト時間キャパシティスケーリングが実現される。
350Mと1Bのモデルスケール全体で、STEMは、知識と推論量の多いベンチマーク(ARC-Challenge、OpenBookQA、GSM8K、MMLU)において、最大3--4%の精度向上を実現している。
全体として、STEMはパラメトリックメモリのスケーリングに有効な方法であり、解釈性の向上、トレーニングの安定性の向上、効率の向上を実現している。
関連論文リスト
- ExplicitLM: Decoupling Knowledge from Parameters via Explicit Memory Banks [4.099810580680816]
大規模言語モデルは、暗黙の知識記憶による知識の安定性と解釈性の欠如に悩まされる。
トークンシーケンスとして可読性のある知識を格納する100万スケールの外部メモリバンクを備えた新しいアーキテクチャであるExplicitLMを提案する。
論文 参考訳(メタデータ) (2025-11-03T13:53:19Z) - TopoSizing: An LLM-aided Framework of Topology-based Understanding and Sizing for AMS Circuits [7.615431299673158]
従来のブラックボックス最適化はサンプリング効率を実現するが、回路理解に欠ける。
提案するTopoSizeは、生のネットリストから直接、堅牢な回路理解を行うエンドツーエンドフレームワークである。
論文 参考訳(メタデータ) (2025-09-17T16:52:46Z) - Large-Scale Model Enabled Semantic Communication Based on Robust Knowledge Distillation [45.347078403677216]
大規模モデル(LSM)は意味表現と理解に有効なフレームワークである。
しかしながら、それらの直接的なデプロイメントは、しばしば高い計算複雑性とリソース要求によって妨げられる。
本稿では,新しい知識蒸留に基づくセマンティックコミュニケーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T07:47:18Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Lightweight and Flexible Deep Equilibrium Learning for CSI Feedback in
FDD Massive MIMO [13.856867175477042]
広帯域多重出力(MIMO)システムでは、ダウンリンクチャネル状態情報(CSI)をベースステーション(BS)に送信する必要がある。
本稿では,深層平衡モデルを用いた軽量で柔軟な深層学習に基づくCSIフィードバック手法を提案する。
論文 参考訳(メタデータ) (2022-11-28T05:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。