Fugu-MT 論文翻訳(概要): Mixture of Weight-shared Heterogeneous Group Attention Experts for Dynamic Token-wise KV Optimization

論文の概要: Mixture of Weight-shared Heterogeneous Group Attention Experts for Dynamic Token-wise KV Optimization

arxiv url: http://arxiv.org/abs/2506.13541v1
Date: Mon, 16 Jun 2025 14:30:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:48.69331
Title: Mixture of Weight-shared Heterogeneous Group Attention Experts for Dynamic Token-wise KV Optimization
Title（参考訳）: 動的Token-wise KV最適化のための重み付き異種グループ注意エキスパートの混合
Authors: Guanghui Song, Dongping Liao, Yiren Zhao, Kejiang Ye, Cheng-zhong Xu, Xitong Gao,
Abstract要約: トランスフォーマーモデルは、キーバリューキャッシュの増大に対する非効率なメモリ割り当てによるスケーラビリティの課題に直面している。そこで我々は,トークン単位の計算とメモリ割り当てを動的に最適化するMixSGAを提案する。本研究の主な特徴は,(1)重要度スコアによって導かれるトークン単位の専門家選択ルーティング機構,(2)パラメータのオーバーヘッドを最小限に抑えるためにグループ化された注意投影のウェイトシェアリング,(3)CLMにおけるトレーニングと推論の整合性を確保するための1ホットルーティング決定のための補助的損失である。
参考スコア（独自算出の注目度）: 27.994376063677766
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Transformer models face scalability challenges in causal language modeling (CLM) due to inefficient memory allocation for growing key-value (KV) caches, which strains compute and storage resources. Existing methods like Grouped Query Attention (GQA) and token-level KV optimization improve efficiency but rely on rigid resource allocation, often discarding "low-priority" tokens or statically grouping them, failing to address the dynamic spectrum of token importance. We propose mixSGA, a novel mixture-of-expert (MoE) approach that dynamically optimizes token-wise computation and memory allocation. Unlike prior approaches, mixSGA retains all tokens while adaptively routing them to specialized experts with varying KV group sizes, balancing granularity and efficiency. Our key novelties include: (1) a token-wise expert-choice routing mechanism guided by learned importance scores, enabling proportional resource allocation without token discard; (2) weight-sharing across grouped attention projections to minimize parameter overhead; and (3) an auxiliary loss to ensure one-hot routing decisions for training-inference consistency in CLMs. Extensive evaluations across Llama3, TinyLlama, OPT, and Gemma2 model families show mixSGA's superiority over static baselines. On instruction-following and continued pretraining tasks, mixSGA achieves higher ROUGE-L and lower perplexity under the same KV budgets.
Abstract（参考訳）: トランスフォーマーモデルは、キー値(KV)キャッシュの増大に対するメモリ割り当ての効率の悪さから、因果言語モデリング(CLM)におけるスケーラビリティの課題に直面している。 Grouped Query Attention (GQA)やトークンレベルのKV最適化といった既存のメソッドは効率を改善するが、厳格なリソース割り当てに依存し、しばしば"低優先度"トークンを捨てたり、静的にグループ化する。トークンワイド計算とメモリ割り当てを動的に最適化するMixSGAを提案する。従来のアプローチとは異なり、mixSGAはトークンを全て保持し、KVグループサイズの異なる専門家に適応的にルーティングし、粒度と効率のバランスをとる。本研究の主な特徴は,(1)重要度スコアによって導かれるトークンワイドの専門家選択ルーティング機構,(2)目標パラメータのオーバーヘッドを最小限に抑えるためにグループ化されたアテンションプロジェクション間での重み付け,(3)CLMにおけるトレーニングと推論の整合性を確保するための1ホットルーティング決定のための補助的損失などである。 Llama3, TinyLlama, OPT, Gemma2 モデルファミリの広範な評価は、静的ベースラインよりもmixSGAの方が優れていることを示している。命令追従および継続事前訓練タスクにおいて、mixSGAは、同じKV予算の下で高いROUGE-Lと低いパープレキシティを達成する。

関連論文リスト

SmallKV: Small Model Assisted Compensation of KV Cache Compression for Efficient LLM Inference [71.20542521694524]
SmallKVはKVキャッシュ圧縮のための小型モデル補助補償法である。本研究では,SmallKVのスループットがベースライン法よりも1.75～2.56倍高いことを示す。
論文参考訳（メタデータ） (2025-08-03T09:15:36Z)
IGD: Token Decisiveness Modeling via Information Gain in LLMs for Personalized Recommendation [70.2753541780788]
我々は,トークン決定性をチューニングと復号の両方に統合する情報ゲインに基づく決定性対応トークンハンドリング(IGD)戦略を導入する。 IGDはリコメンデーションの精度を一貫して改善し、強力なベースラインに比べて広く使われているランキングの指標で顕著に向上した。
論文参考訳（メタデータ） (2025-06-16T08:28:19Z)
KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache [13.662270631753135]
量子化は、KVキャッシュによって引き起こされるメモリ圧力を効果的に軽減することができる。 KVmix と呼ばれる KV キャッシュのための新しい混合精度量子化法を提案する。
論文参考訳（メタデータ） (2025-05-18T07:04:53Z)
Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文参考訳（メタデータ） (2025-04-29T14:58:43Z)
Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.52833484759311]
本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文参考訳（メタデータ） (2025-02-17T08:39:43Z)
HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文参考訳（メタデータ） (2024-11-10T19:59:54Z)
Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文参考訳（メタデータ） (2024-10-08T18:09:38Z)
Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-24T08:59:51Z)
Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文参考訳（メタデータ） (2024-07-11T12:50:42Z)
Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文参考訳（メタデータ） (2024-06-11T08:37:33Z)
LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文参考訳（メタデータ） (2024-05-23T11:10:32Z)
Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。 SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文参考訳（メタデータ） (2024-05-22T04:49:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。