論文の概要: Beyond N-gram: Data-Aware X-GRAM Extraction for Efficient Embedding Parameter Scaling
- arxiv url: http://arxiv.org/abs/2604.21724v2
- Date: Fri, 24 Apr 2026 17:56:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 13:34:22.048023
- Title: Beyond N-gram: Data-Aware X-GRAM Extraction for Efficient Embedding Parameter Scaling
- Title(参考訳): N-gramを超える:効率的な埋め込みパラメータスケーリングのためのデータ認識X-GRAM抽出
- Authors: Yilong Chen, Yanxi Xie, Zitian Gao, He Xin, Yihao Xiao, Jason Klein Liu, Haoming Luo, Yifan Luo, Zhengmao Ye, Tingwen Liu, Xin Zhao, Ran Tao, Bryan Dai,
- Abstract要約: X-GRAMは周波数対応の動的トークン注入フレームワークである。
ヘッド容量を保ちながら尾部を圧縮するためにハイブリッドハッシュとエイリアスミキシングを使用する。
SwiGLU ShortConvによって取得したベクトルを洗練し、様々な局所的なn-gram特徴を抽出する。
- 参考スコア(独自算出の注目度): 24.48256429931821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large token-indexed lookup tables provide a compute-decoupled scaling path, but their practical gains are often limited by poor parameter efficiency and rapid memory growth. We attribute these limitations to Zipfian under-training of the long tail, heterogeneous demand across layers, and "slot collapse" that produces redundant embeddings. To address this, we propose X-GRAM, a frequency-aware dynamic token-injection framework. X-GRAM employs hybrid hashing and alias mixing to compress the tail while preserving head capacity, and refines retrieved vectors via normalized SwiGLU ShortConv to extract diverse local n-gram features. These signals are integrated into attention value streams and inter-layer residuals using depth-aware gating, effectively aligning static memory with dynamic context. This design introduces a memory-centric scaling axis that decouples model capacity from FLOPs. Extensive evaluations at the 0.73B and 1.15B scales show that X-GRAM improves average accuracy by as much as 4.4 points over the vanilla backbone and 3.2 points over strong retrieval baselines, while using substantially smaller tables in the 50% configuration. Overall, by decoupling capacity from compute through efficient memory management, X-GRAM offers a scalable and practical paradigm for future memory-augmented architectures. Code aviliable in https://github.com/Longyichen/X-gram.
- Abstract(参考訳): 大規模なトークンインデックス付きルックアップテーブルは、計算切り離されたスケーリングパスを提供するが、その実用的利益はパラメータ効率の低さと高速なメモリ成長によって制限されることが多い。
これらの制限は、Zipfianの長い尾のアンダートレーニング、層間の不均一な需要、冗長な埋め込みを生成する「スロット崩壊」に起因する。
そこで本研究では,周波数対応動的トークン注入フレームワークであるX-GRAMを提案する。
X-GRAMは、ヘッド容量を保ちながら尾部を圧縮するためにハイブリッドハッシュとエイリアスミキシングを使用し、正規化されたSwiGLU ShortConvを介して取得したベクトルを精製し、様々な局所的なn-gram特徴を抽出する。
これらの信号は、奥行き認識ゲーティング(deep-aware gating)を使用して、注意値ストリームと層間残差に統合され、静的メモリと動的コンテキストを効果的に整合させる。
この設計では、FLOPからモデルキャパシティを分離するメモリ中心のスケーリング軸を導入している。
0.73B と 1.15B の大規模な評価では、X-GRAM はバニラのバックボーン上で最大4.4ポイント、強力な検索ベースライン上では3.2ポイントで平均精度を向上し、50%構成ではかなり小さなテーブルを使用する。
全体として、計算能力と効率的なメモリ管理を両立させることで、X-GRAMは将来のメモリ拡張アーキテクチャにおいてスケーラブルで実用的なパラダイムを提供する。
code aviliable in https://github.com/Longyichen/X-gram
関連論文リスト
- XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression [20.18561757219652]
XStreamVGGTは、プルニングと量子化をシームレスに統合し、KVキャッシュを体系的に圧縮するチューニング不要のアプローチである。
XStreamVGGTは、ほとんど無視可能なパフォーマンス劣化を実現し、メモリ使用量を4.42$times$で大幅に削減する。
論文 参考訳(メタデータ) (2026-02-25T11:02:02Z) - Hierarchical Adaptive Eviction for KV Cache Management in Multimodal Language Models [8.944739362562494]
既存のKVキャッシュ消去戦略は、視覚トークンとテキストトークンの間の不均一な注意分布に対処できない。
MLLMにおけるテキスト-視覚トークンの相互作用を最適化するKVキャッシュ消去フレームワークである階層適応消去(HAE)を提案する。
HAEは層間のKVキャッシュ使用を最小化し、インデックスブロードキャストによる計算オーバーヘッドを低減し、理論的には優れた情報完全性と低いエラー境界を保証する。
論文 参考訳(メタデータ) (2026-02-02T15:01:44Z) - Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models [42.816060150754645]
我々は,O(1)ルックアップのための古典的な$N$-gram埋め込みを近代化するモジュールであるEngramを介してインスタンス化した,相補的空間軸として条件記憶を導入する。
我々はEngramを27Bパラメータに拡張し、厳密なアイソパラメータとアイソFLOPs MoEベースラインよりも優れた性能を実現する。
我々は,次世代スパースモデルにおいて,条件記憶を必要不可欠なモデリングプリミティブとして想定する。
論文 参考訳(メタデータ) (2026-01-12T09:54:49Z) - XQuant: Achieving Ultra-Low Bit KV Cache Quantization with Cross-Layer Compression [54.28208936996186]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な機能を示している。
量子化は、歴史的情報を保持しながらメモリ消費を減らすための有望な解決策として現れてきた。
超低等価ビット幅KVキャッシュ量子化を実現するトレーニングフリーでプラグアンドプレイのフレームワークであるXQuantを提案する。
論文 参考訳(メタデータ) (2025-10-13T10:17:21Z) - Efficient In-Memory Acceleration of Sparse Block Diagonal LLMs [1.5099440840283813]
構造化されたスパーシリティは、リソース制約のあるシステムに大規模言語モデル(LLM)をデプロイすることを可能にする。
本稿では,CIMアクセラレータ上での疎LLM推論を高速化するための新しいマッピングとスケジューリング手法を提案する。
提案手法はCIM利用率を50%以上向上させ,メモリフットプリントと浮動小数点演算回数の両面で4倍以上の削減を実現した。
論文 参考訳(メタデータ) (2025-10-13T09:25:48Z) - Re-Densification Meets Cross-Scale Propagation: Real-Time Neural Compression of LiDAR Point Clouds [83.39320394656855]
LiDARポイントクラウドは、様々なアプリケーションに基本的だが、高精度スキャンは、かなりのストレージと送信オーバーヘッドを発生させる。
既存の手法では、非順序の点を階層的なオクツリーやボクセル構造に変換して、密度から疎い予測符号化を行うのが一般的である。
筆者らのフレームワークは2つの軽量モジュールから構成されている。まず、Geometry Re-Densification Moduleがエンコードされたスパース幾何を再認識し、より密なスケールで特徴を抽出し、予測符号化のための特徴を再分離する。
論文 参考訳(メタデータ) (2025-08-28T06:36:10Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。