論文の概要: L$^3$: Large Lookup Layers
- arxiv url: http://arxiv.org/abs/2601.21461v1
- Date: Thu, 29 Jan 2026 09:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.70507
- Title: L$^3$: Large Lookup Layers
- Title(参考訳): L$^3$: 大きなルックアップ層
- Authors: Albert Tseng, Christopher De Sa,
- Abstract要約: スパーストークンライザ埋め込みテーブルは、コンテキスト情報を持たないコストで、トークンごとの単一の埋め込みを選択する。
L$3$レイヤは静的トークンベースのルーティングを使用して、コンテキスト依存の方法でトークン毎に学習した埋め込みのセットを集約する。
L$3$は、(1)高速なトレーニングとCPUオフロード推論が可能なシステムフレンドリーなアーキテクチャ、(2)スピードと品質を効果的にバランスする情報理論の埋め込み割り当てアルゴリズムである。
- 参考スコア(独自算出の注目度): 30.519997678052658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern sparse language models typically achieve sparsity through Mixture-of-Experts (MoE) layers, which dynamically route tokens to dense MLP "experts." However, dynamic hard routing has a number of drawbacks, such as potentially poor hardware efficiency and needing auxiliary losses for stable training. In contrast, the tokenizer embedding table, which is natively sparse, largely avoids these issues by selecting a single embedding per token at the cost of not having contextual information. In this work, we introduce the Large Lookup Layer (L$^3$), which unlocks a new axis of sparsity by generalizing embedding tables to model decoder layers. L$^3$ layers use static token-based routing to aggregate a set of learned embeddings per token in a context-dependent way, allowing the model to efficiently balance memory and compute by caching information in embeddings. L$^3$ has two main components: (1) a systems-friendly architecture that allows for fast training and CPU-offloaded inference with no overhead, and (2) an information-theoretic embedding allocation algorithm that effectively balances speed and quality. We empirically test L$^3$ by training transformers with up to 2.6B active parameters and find that L$^3$ strongly outperforms both dense models and iso-sparse MoEs in both language modeling and downstream tasks.
- Abstract(参考訳): 現代のスパース言語モデルは一般的に、Mixture-of-Experts (MoE) レイヤを通じて、トークンを高密度の MLP "Experts" に動的にルーティングする。
しかし、動的ハードルーティングには、ハードウェア効率の低下や、安定したトレーニングのための補助的な損失など、多くの欠点がある。
対照的に、ネイティブに疎いトークン化テーブルは、コンテキスト情報を持たないコストでトークン毎の1つの埋め込みを選択することで、これらの問題を回避している。
本稿では,テーブルをデコーダ層に埋め込むことで,空間の新たな軸を解放するLarge Lookup Layer (L$^3$)を提案する。
L$^3$レイヤは静的トークンベースのルーティングを使用して,トークン単位の学習済み埋め込みをコンテキスト依存の方法で集約する。
L$^3$は、(1)高速なトレーニングと、オーバーヘッドのないCPU負荷の推論を可能にするシステムフレンドリーなアーキテクチャ、(2)スピードと品質を効果的にバランスする情報理論の埋め込み割り当てアルゴリズムである。
我々はL$^3$を最大2.6Bのアクティブパラメータを持つ変圧器の訓練により実証的にテストし、L$^3$が言語モデリングと下流タスクの両方において高密度モデルとアイソスパース MoE の両方を強く上回ることを示した。
関連論文リスト
- SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - Mixture of States: Routing Token-Level Dynamics for Multimodal Generation [60.15447534872979]
マルチモーダル拡散モデルのための新しい融合パラダイムであるMoS(Mixture of States)を紹介する。
MoSは学習可能なトークン指向ルータで、遅延時間ステップと入力依存のインタラクションを生成する。
我々は,画像のテキスト生成と編集による設計の検証を行い,その結果を得た。
論文 参考訳(メタデータ) (2025-11-15T13:24:57Z) - DeepInsert: Early Layer Bypass for Efficient and Performant Multimodal Understanding [26.39397960987363]
本稿では,事前学習したトランスモデルに対する簡単な修正を提案する。
まず最初に言語プロンプトと結合するのではなく、マルチモーダルトークンを直接中央に挿入します。
その結果,本手法は,学習と推論の双方において計算コストを削減できることが示唆された。
論文 参考訳(メタデータ) (2025-04-27T18:56:26Z) - Saliency-driven Dynamic Token Pruning for Large Language Models [32.903622070917194]
塩分駆動型動的トケンプルーニング(SDTP)
軽量なサリエンシ駆動予測モジュールは、各トークンの重要度をその隠れ状態で推定するように設計されている。
ランキングに基づく最適化手法を提案し,評価スコアと予測重要スコアのランキングばらつきを最小化する。
論文 参考訳(メタデータ) (2025-04-06T15:15:07Z) - Scaling Embedding Layers in Language Models [61.939921364422936]
$SCONE$は入力埋め込み層を拡張して言語モデルのパフォーマンスを向上させる新しいメソッドである。
SCONE$は、n-gramの頻繁なセットに埋め込みを導入しながら、元の語彙を保持します。
これらの埋め込みは、各入力トークンに対してコンテキスト化された表現を提供し、トレーニング中に別のモデルで学習する。
$SCONE$は、n-gram埋め込みの数を増やし、それらを学ぶために使用するモデルをスケーリングする、という2つの新しいスケーリング戦略を可能にします。
論文 参考訳(メタデータ) (2025-02-03T18:59:32Z) - Dynamic layer selection in decoder-only transformers [21.18795712840146]
自然言語生成のための2つの一般的な動的推論手法を実証的に検討する。
トレーニング済みのデコーダのみのモデルでは,層スキップによる層除去が著しく堅牢であることがわかった。
また、シーケンス毎の動的計算割り当ては、大きな効率向上を約束することを示す。
論文 参考訳(メタデータ) (2024-10-26T00:44:11Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。