論文の概要: FlashHead: Efficient Drop-In Replacement for the Classification Head in Language Model Inference
- arxiv url: http://arxiv.org/abs/2603.14591v1
- Date: Sun, 15 Mar 2026 20:26:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.905239
- Title: FlashHead: Efficient Drop-In Replacement for the Classification Head in Language Model Inference
- Title(参考訳): FlashHead: 言語モデル推論における分類ヘッドの効率的なドロップイン置換
- Authors: Wilhelm Tranheden, Shahnawaz Ahmed, Devdatt Dubhashi, Jonna Matthiesen, Hannes von Essen,
- Abstract要約: 我々はFlashHeadを紹介します。これは、トレーニング不要でハードウェアフレンドリーな、高密度な分類ヘッドの代替品です。
FlashHeadは、情報検索の原則に基づいて、出力ヘッドでの計算を検索問題として再定義する。
我々は、FlashHeadがモデルレベルの推論スピードアップを textbf1.75x まで提供し、元のヘッドと比較して出力精度を維持することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are increasingly adopting smaller architectures optimized for consumer devices. In this setting, inference efficiency is the primary constraint. Meanwhile, vocabulary sizes continue to grow rapidly, making the classification head a critical bottleneck that accounts for up to 60\% of model parameters, and 50\% of inference compute. We introduce FlashHead, the first efficient drop-in replacement for the dense classification head that is training-free and hardware-friendly. FlashHead builds on principles from information retrieval, reframing that computation at the output head as a retrieval problem rather than a dense classification over the full vocabulary. FlashHead introduces four key innovations: (1) a balanced clustering scheme that structures vocabulary partitions into compact hardware-efficient tensors, (2) extending multiprobe retrieval to language model heads, enabling thousands of clusters to be scored in parallel, (3) a novel inference-time sampling mechanism that extends retrieval beyond top tokens, enabling probabilistic sampling across the full vocabulary, and (4) selective quantization, enabling effective low-bit computation in the head. Experiments on Llama-3.2, Gemma-3, and Qwen-3 show that FlashHead delivers model-level inference speedups of up to \textbf{1.75x} which maintaining output accuracy compared to the original head. By overcoming the classification head bottleneck, FlashHead establishes a new benchmark for efficient inference and removes a key barrier to developing smaller, capable models for consumer hardware.
- Abstract(参考訳): 言語モデルは、消費者デバイス向けに最適化されたより小さなアーキテクチャを採用する傾向にある。
この設定では、推論効率が第一の制約である。
一方、語彙のサイズは急速に増加し続けており、分類ヘッドは最大60 %のモデルパラメータと50 %の推論計算のボトルネックとなっている。
私たちはFlashHeadを紹介します。これは、トレーニング不要でハードウェアフレンドリーな、高密度な分類ヘッドの最初の効率的なドロップイン代替です。
FlashHeadは、情報検索の原理に基づいており、その出力ヘッドでの計算を、完全な語彙に対する厳密な分類というよりは、検索問題として捉えている。
FlashHeadは、(1)語彙分割をコンパクトなハードウェア効率のテンソルに構造化するバランスの取れたクラスタリングスキーム、(2)言語モデルヘッドにマルチプローブ検索を拡張し、数千のクラスタを並列に取得可能にすること、(3)トップトークンを越えて検索を拡張し、全語彙にわたって確率的サンプリングを可能にする新しい推論時サンプリング機構、(4)ヘッド内で有効な低ビット計算を可能にする選択的量子化、の4つの主要なイノベーションを紹介している。
Llama-3.2、Gemma-3、Qwen-3の実験では、FlashHeadはモデルレベルの推論速度を、元のヘッドと比較して出力の精度を維持するtextbf{1.75x}まで提供することを示した。
分類ヘッドボトルネックを克服することで、FlashHeadは効率的な推論のための新しいベンチマークを確立し、コンシューマハードウェア用の小型で有能なモデルを開発する上で重要な障壁を取り除く。
関連論文リスト
- Explicit Multi-head Attention for Inter-head Interaction in Large Language Models [70.96854312026319]
マルチヘッド明示的注意(Multi-head Explicit Attention、MEA)は、頭間相互作用を明示的にモデル化した、単純で効果的な注意法である。
MEAは事前トレーニングにおいて強い堅牢性を示し、より高速な収束につながる学習率を使用することを可能にします。
これにより、KVキャッシュメモリ使用率を50%削減できる実用的なキー値キャッシュ圧縮戦略が実現される。
論文 参考訳(メタデータ) (2026-01-27T13:45:03Z) - An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。
既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。
短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。
さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文 参考訳(メタデータ) (2025-07-18T10:07:42Z) - Comprehensive Multi-Modal Prototypes are Simple and Effective Classifiers for Vast-Vocabulary Object Detection [68.26282316080558]
現在のオープンワールド検出器は、限られたカテゴリーで訓練されているにもかかわらず、より広い範囲の語彙を認識することができる。
本稿では,多語彙オブジェクト検出のためのプロトタイプ分類器Provaを紹介する。
論文 参考訳(メタデータ) (2024-12-23T18:57:43Z) - Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - Learning to Detect and Segment for Open Vocabulary Object Detection [6.678101044494558]
オープン語彙設定のためのボックス回帰とマスクセグメンテーションをより一般化する,原理的動的ネットワーク設計を提案する。
CondHeadは2つのネットワークヘッド、動的に集約されたヘッドと動的に生成されたヘッドで構成されている。
提案手法は,非常に少ないオーバーヘッドで,最先端のオープン語彙オブジェクト検出手法に大幅な改善をもたらす。
論文 参考訳(メタデータ) (2022-12-23T03:54:59Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Clustering by Maximizing Mutual Information Across Views [62.21716612888669]
本稿では,共同表現学習とクラスタリングを組み合わせた画像クラスタリングのための新しいフレームワークを提案する。
提案手法は,様々な画像データセットにおける最先端の単一ステージクラスタリング手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-24T15:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。