論文の概要: Mixture of Weight-shared Heterogeneous Group Attention Experts for Dynamic Token-wise KV Optimization
- arxiv url: http://arxiv.org/abs/2506.13541v1
- Date: Mon, 16 Jun 2025 14:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.69331
- Title: Mixture of Weight-shared Heterogeneous Group Attention Experts for Dynamic Token-wise KV Optimization
- Title(参考訳): 動的Token-wise KV最適化のための重み付き異種グループ注意エキスパートの混合
- Authors: Guanghui Song, Dongping Liao, Yiren Zhao, Kejiang Ye, Cheng-zhong Xu, Xitong Gao,
- Abstract要約: トランスフォーマーモデルは、キーバリューキャッシュの増大に対する非効率なメモリ割り当てによるスケーラビリティの課題に直面している。
そこで我々は,トークン単位の計算とメモリ割り当てを動的に最適化するMixSGAを提案する。
本研究の主な特徴は,(1)重要度スコアによって導かれるトークン単位の専門家選択ルーティング機構,(2)パラメータのオーバーヘッドを最小限に抑えるためにグループ化された注意投影のウェイトシェアリング,(3)CLMにおけるトレーニングと推論の整合性を確保するための1ホットルーティング決定のための補助的損失である。
- 参考スコア(独自算出の注目度): 27.994376063677766
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer models face scalability challenges in causal language modeling (CLM) due to inefficient memory allocation for growing key-value (KV) caches, which strains compute and storage resources. Existing methods like Grouped Query Attention (GQA) and token-level KV optimization improve efficiency but rely on rigid resource allocation, often discarding "low-priority" tokens or statically grouping them, failing to address the dynamic spectrum of token importance. We propose mixSGA, a novel mixture-of-expert (MoE) approach that dynamically optimizes token-wise computation and memory allocation. Unlike prior approaches, mixSGA retains all tokens while adaptively routing them to specialized experts with varying KV group sizes, balancing granularity and efficiency. Our key novelties include: (1) a token-wise expert-choice routing mechanism guided by learned importance scores, enabling proportional resource allocation without token discard; (2) weight-sharing across grouped attention projections to minimize parameter overhead; and (3) an auxiliary loss to ensure one-hot routing decisions for training-inference consistency in CLMs. Extensive evaluations across Llama3, TinyLlama, OPT, and Gemma2 model families show mixSGA's superiority over static baselines. On instruction-following and continued pretraining tasks, mixSGA achieves higher ROUGE-L and lower perplexity under the same KV budgets.
- Abstract(参考訳): トランスフォーマーモデルは、キー値(KV)キャッシュの増大に対するメモリ割り当ての効率の悪さから、因果言語モデリング(CLM)におけるスケーラビリティの課題に直面している。
Grouped Query Attention (GQA)やトークンレベルのKV最適化といった既存のメソッドは効率を改善するが、厳格なリソース割り当てに依存し、しばしば"低優先度"トークンを捨てたり、静的にグループ化する。
トークンワイド計算とメモリ割り当てを動的に最適化するMixSGAを提案する。
従来のアプローチとは異なり、mixSGAはトークンを全て保持し、KVグループサイズの異なる専門家に適応的にルーティングし、粒度と効率のバランスをとる。
本研究の主な特徴は,(1)重要度スコアによって導かれるトークンワイドの専門家選択ルーティング機構,(2)目標パラメータのオーバーヘッドを最小限に抑えるためにグループ化されたアテンションプロジェクション間での重み付け,(3)CLMにおけるトレーニングと推論の整合性を確保するための1ホットルーティング決定のための補助的損失などである。
Llama3, TinyLlama, OPT, Gemma2 モデルファミリの広範な評価は、静的ベースラインよりもmixSGAの方が優れていることを示している。
命令追従および継続事前訓練タスクにおいて、mixSGAは、同じKV予算の下で高いROUGE-Lと低いパープレキシティを達成する。
関連論文リスト
- KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache [13.662270631753135]
量子化は、KVキャッシュによって引き起こされるメモリ圧力を効果的に軽減することができる。
KVmix と呼ばれる KV キャッシュのための新しい混合精度量子化法を提案する。
論文 参考訳(メタデータ) (2025-05-18T07:04:53Z) - Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。
提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文 参考訳(メタデータ) (2024-06-11T08:37:33Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。
この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。