論文の概要: Latent Multi-Head Attention for Small Language Models
- arxiv url: http://arxiv.org/abs/2506.09342v1
- Date: Wed, 11 Jun 2025 02:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.241488
- Title: Latent Multi-Head Attention for Small Language Models
- Title(参考訳): 小言語モデルに対する潜在的マルチヘッドアテンション
- Authors: Sushant Mehta, Raj Dandekar, Rajat Dandekar, Sreedath Panat,
- Abstract要約: 本稿では,小型言語モデルに対する潜時マルチヘッドアテンション(MLA)の総合的研究について紹介する。
標準マルチヘッドアテンション(MHA)、MLA、MLA+RoPE(MLA+RoPE)の3種類のアーキテクチャをベンチマークする。
我々の重要な発見は、半ランクの潜伏次元 (r = d/2) を持つ MLA+RoPE が 45% KV-cache のメモリ削減を実現し、検証損失は 0.3% しか増加していないことである。
- 参考スコア(独自算出の注目度): 1.7272658301768147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first comprehensive study of latent multi-head attention (MLA) for small language models, revealing interesting efficiency-quality trade-offs. Training 30M-parameter GPT models on 100,000 synthetic stories, we benchmark three architectural variants: standard multi-head attention (MHA), MLA, and MLA with rotary positional embeddings (MLA+RoPE). Our key finding is that MLA+RoPE with half-rank latent dimensions (r = d/2) achieves a 45% KV-cache memory reduction while incurring only a 0.3% increase in validation loss (essentially matching MHA quality)- a Pareto improvement for memory constrained deployment. We further show that RoPE is crucial for MLA in small models: without it, MLA underperforms vanilla attention by 3-5%, but with RoPE, it surpasses vanilla by 2%. Inference benchmarks on NVIDIA A100 GPUs reveal that MLA with r=d/2 achieves a 1.4 times speedup over full-rank MLA while maintaining the memory savings. GPT-4 evaluations corroborate perplexity results, with ours achieving the highest quality scores (7.4/10) across grammar, creativity, and consistency metrics. Code and models will be released upon acceptance.
- Abstract(参考訳): 小型言語モデルに対する潜在的マルチヘッドアテンション(MLA)に関する最初の総合的研究を行い、興味深い効率品質のトレードオフを明らかにした。
10万の合成ストーリ上で30MパラメータのGPTモデルをトレーニングし、標準マルチヘッドアテンション(MHA)、MLA、MLA+RoPE(MLA+RoPE)の3種類のアーキテクチャ変異体をベンチマークした。
我々の重要な発見は、半ランクの潜伏次元 (r = d/2) を持つ MLA+RoPE が 45% KV-cache メモリの削減を実現し、検証損失が 0.3% しか増加せず(MHA の品質に相応しい)、メモリ制限されたデプロイメントに対する Pareto の改善が達成されたことです。
さらに, 小型モデルでは, RoPE はバニラの注意を3~5%下回るが, RoPE ではバニラの2%を超えている。
NVIDIA A100 GPUの推論ベンチマークによると、r=d/2のMLAは、メモリの節約を維持しながら、フルランクのMLAよりも1.4倍のスピードアップを実現している。
GPT-4は、文法、創造性、一貫性の指標で最高品質のスコア(7.4/10)を達成している。
コードとモデルは受け入れ次第リリースされる。
関連論文リスト
- EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - X-EcoMLA: Upcycling Pre-Trained Attention into MLA for Efficient and Extreme KV Compression [23.023849840907594]
MLA(Multi-head Latent attention)は、KVキャッシュメモリを低ランクキー値のジョイント圧縮により最適化するように設計されている。
提案手法は,ベンチマークの性能を保ちながら,KVキャッシュを効果的に圧縮できることを示す。
論文 参考訳(メタデータ) (2025-03-14T06:49:37Z) - Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [74.74225314708225]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。
本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:50:42Z) - TransMLA: Migrating GQA Models to MLA with Full DeepSeek Compatibility and Speedup [35.91521189774362]
TransMLAはGQAベースのモデルをMLAベースのモデルにシームレスに変換するフレームワークである。
LLaMA-2-7BでKVキャッシュの93%を圧縮することにより、TransMLAは8Kコンテキスト長で10.6倍の推論スピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-11T18:20:18Z) - MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases [46.997172696192195]
本稿では、クラウドコストの増大とレイテンシの懸念により、モバイルデバイス上での効率的な大規模言語モデル(LLM)の必要性に対処する。
モバイルデプロイメントの実践的な選択として,10億未満のパラメータで高品質なLLMを設計することに重点を置いています。
論文 参考訳(メタデータ) (2024-02-22T18:58:55Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Multistage Collaborative Knowledge Distillation from a Large Language Model for Semi-Supervised Sequence Generation [60.657065293413716]
本研究は半教師付きシーケンス生成タスクについて検討し,いくつかのラベル付き例ではモデルを微調整するには不十分である。
数発の試薬で抽出した学生モデルは、教師よりも一般的に一般化できるという発見を提示する。
論文 参考訳(メタデータ) (2023-11-15T01:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。