論文の概要: HASTE: Hardware-Aware Dynamic Sparse Training for Large Output Spaces
- arxiv url: http://arxiv.org/abs/2606.01117v1
- Date: Sun, 31 May 2026 09:25:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.216082
- Title: HASTE: Hardware-Aware Dynamic Sparse Training for Large Output Spaces
- Title(参考訳): HASTE:大規模出力空間のためのハードウェア対応ダイナミックスパーストレーニング
- Authors: Nasib Ullah, Jinbin Zhang, Jean Lucien Randrianantenaina, Erik Schultheis, Rohit Babbar,
- Abstract要約: XMC (Extreme Multi-label Classification) は、数百万のラベルを持つ大出力空間上の学習モデルを含む。
グループ共有固定ファンインスパシティ(Group-shared fixed fan-in sparsity)は、セマンティック関連ラベルがスパース入力パターンを共有する半構造化出力層設計である。
グループシェアされた固定ファンイン算術は、実用的なウォールクロックゲインに還元されることを示す。
- 参考スコア(独自算出の注目度): 11.730547294888707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extreme multi-label classification (XMC) involves learning models over large output spaces with millions of labels, making the output layer a memory-compute bottleneck. While sparsity-based methods reduce arithmetic complexity, they often fail to yield proportional speedups due to irregular memory access, poor hardware utilization, or reliance on auxiliary architectural components in long-tailed regimes. We introduce group-shared fixed fan-in sparsity, a semi-structured output-layer design in which semantically related labels share a sparse input pattern while retaining independent weights. This grouping introduces a task-aligned inductive bias -- encouraging related labels to share feature subsets -- while reducing index memory overhead, increasing feature reuse across labels, and enabling efficient GPU execution via custom CUDA kernels that leverage modern accelerator primitives. As an alternative to auxiliary objectives, we exploit the long-tailed structure of XMC by decomposing the output layer into a small dense head over frequent labels and a group-shared sparse tail over the remainder, providing an informative gradient pathway while preserving the memory benefits of sparsity. Through kernel-level microbenchmarking, we show that group-shared fixed fan-in translates arithmetic reductions into practical wall-clock gains, achieving up to $4.4\times$ speedup in the forward pass and up to $25\times$ speedup in backward passes over standard fixed fan-in sparsity, while operating within a few percent of a FLOPs-matched dense bottleneck. Across large-scale XMC benchmarks, our approach matches or improves precision@k over prior sparse baselines, while narrowing the performance gap to dense.
- Abstract(参考訳): XMC(Extreme Multi-label Classification)は、数百万のラベルを持つ大規模な出力空間上の学習モデルを伴い、出力層をメモリ計算ボトルネックにする。
空間性に基づく手法は算術的複雑性を減少させるが、不規則なメモリアクセス、ハードウェア利用の低さ、長い尾を持つ状態における補助的なアーキテクチャコンポーネントへの依存などにより、比例的なスピードアップを得られないことが多い。
半構造化された出力層設計であり、独立重みを保ちながら意味的に関連付けられたラベルがスパース入力パターンを共有する。
このグルーピングでは、タスク指向の帰納バイアス -- 関連するラベルが機能サブセットを共有することを奨励する -- を導入し、インデックスメモリのオーバーヘッドを低減し、ラベル間の機能の再利用を増大させ、モダンなアクセルプリミティブを活用するカスタムCUDAカーネルによる効率的なGPU実行を可能にしている。
補助的目的の代替として,出力層を高頻度ラベルと群共有スパーステールに分解することで,XMCの長い尾構造を利用する。
カーネルレベルのマイクロベンチマーキングにより、グループシェアの固定ファンインは算術的な減算を実用的なウォールクロックゲインに変換し、最大4.4\times$フォワードパスでスピードアップし、最大25\times$バックワードでのスピードアップは標準的な固定ファンイン間隔を超越し、FLOPにマッチした密集ボトルネックの数パーセント以内で動作することを示す。
大規模XMCベンチマークでは,従来のスパースベースラインよりも精度が向上し,パフォーマンスギャップが狭くなる。
関連論文リスト
- No More K-means: Single-Stage Sparse Coding for Efficient Multi-Vector Retrieval [51.43543998583709]
SSR(Single-stage Sparse Retrieval)は、高価なクラスタリングを効率的なスパースコーディングに置き換えるパラダイムシフトである。
ColBERTv2と比較してインデックス処理時間を15倍短縮し、検索レイテンシを半減させ、同時に検索性能を向上させる。
論文 参考訳(メタデータ) (2026-05-28T15:53:34Z) - OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond [50.440302567029654]
マルチモーダルインテリジェンスにより、Key-Valueキャッシュは効率的なデプロイメントのための主要なメモリボトルネックとなった。
本研究では、チャネルごとの量子化パラダイムの本質的な限界を再考する。
X-LLMのための高精度かつ軽量なKVキャッシュ圧縮フレームワークOScaRを提案する。
論文 参考訳(メタデータ) (2026-05-19T10:53:03Z) - Beyond N-gram: Data-Aware X-GRAM Extraction for Efficient Embedding Parameter Scaling [24.48256429931821]
X-GRAMは周波数対応の動的トークン注入フレームワークである。
ヘッド容量を保ちながら尾部を圧縮するためにハイブリッドハッシュとエイリアスミキシングを使用する。
SwiGLU ShortConvによって取得したベクトルを洗練し、様々な局所的なn-gram特徴を抽出する。
論文 参考訳(メタデータ) (2026-04-23T14:27:10Z) - Self-Indexing KVCache: Predicting Sparse Attention from Compressed Keys [30.377113902938678]
既存のアプローチでは、スパーシリティ予測と圧縮を別々のモジュールとして扱い、関連するトークンを選択するための補助的なインデックス構造と、メモリ使用量を減らすための複雑な量子化スキームに依存している。
本稿では, 圧縮鍵表現を記憶として扱うだけでなく, 効率よく注意を向けられる自己インデクシング構造として, 新たなパラダイムを提案する。
符号ベースの1ビットベクトル量子化(VQ)方式を設計することにより、ハードウェアに優しい単一のフォーマットで圧縮と検索を統一する。
論文 参考訳(メタデータ) (2026-03-15T05:02:17Z) - Bishop: Sparsified Bundling Spiking Transformers on Heterogeneous Cores with Error-Constrained Pruning [5.421489676274393]
トークンの集合のスパイクデータを複数の時間ポイントに束ねるコンテナである,Token-Time Bundle(TTB)アクセラレータの概念を紹介した。
Bishopは、スパイクベースのワークロードのためのハードウェア計算アーキテクチャとHW/SWの共同設計フレームワークとして、初めての専用である。
論文 参考訳(メタデータ) (2025-05-18T07:42:58Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - COMPASS: A Compiler Framework for Resource-Constrained Crossbar-Array Based In-Memory Deep Learning Accelerators [6.172271429579593]
本稿では、資源制約付きクロスバーベース処理インメモリ(PIM)ディープニューラルネットワーク(DNN)アクセラレーターのためのコンパイラフレームワークを提案する。
本稿では,各パーティションをチップ上で高速化するために,各レイヤを分割する最適なパーティショニングを決定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-12T11:31:25Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。