論文の概要: Mixture of Attention Schemes (MoAS): Learning to Route Between MHA, GQA, and MQA
- arxiv url: http://arxiv.org/abs/2512.20650v1
- Date: Tue, 16 Dec 2025 09:57:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.534295
- Title: Mixture of Attention Schemes (MoAS): Learning to Route Between MHA, GQA, and MQA
- Title(参考訳): 注意体系の混合(MoAS):MHA、GQA、MQA間の経路を学ぶ
- Authors: Esmail Gumaan,
- Abstract要約: 学習ルータを介して各トークンに対する最適注意スキームを動的に選択する新しいアーキテクチャを提案する。
WikiText-2の実験結果は、動的ルーティング(val loss 2.3074)が静的な混合(2.3093)より優れていることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The choice of attention mechanism in Transformer models involves a critical trade-off between modeling quality and inference efficiency. Multi-Head Attention (MHA) offers the best quality but suffers from large Key-Value (KV) cache memory requirements during inference. Multi-Query Attention (MQA) and Grouped-Query Attention (GQA) reduce memory usage but often at the cost of model performance. In this work, we propose Mixture of Attention Schemes (MoAS), a novel architecture that dynamically selects the optimal attention scheme (MHA, GQA, or MQA) for each token via a learned router. We demonstrate that dynamic routing performs better than static averaging of schemes and achieves performance competitive with the MHA baseline while offering potential for conditional compute efficiency. Experimental results on WikiText-2 show that dynamic routing (val loss 2.3074) outperforms a static mixture (2.3093), validating the effectiveness of the proposed method. Our code is available at https://github.com/Esmail-ibraheem/Mixture-of-Attention-Schemes-MoAS.
- Abstract(参考訳): Transformerモデルにおける注意機構の選択には、モデリング品質と推論効率の間に重要なトレードオフがある。
MHA(Multi-Head Attention)は最高の品質を提供するが、推論時に大きなキーバリュー(KV)キャッシュメモリ要求に悩まされる。
Multi-Query Attention (MQA) と Grouped-Query Attention (GQA) はメモリ使用量を減らすが、しばしばモデルパフォーマンスの犠牲になる。
本研究では,学習ルータを介して各トークンに対して最適注意スキーム(MHA, GQA, MQA)を動的に選択する新しいアーキテクチャであるMixture of Attention Schemes(MoAS)を提案する。
動的ルーティングはスキームの静的平均化よりも優れた性能を示し、条件付き計算効率のポテンシャルを提供しながら、MHAベースラインと競合する性能を実現する。
WikiText-2の実験結果によると、動的ルーティング(val loss 2.3074)は静的な混合(2.3093)よりも優れており、提案手法の有効性が検証されている。
私たちのコードはhttps://github.com/Esmail-ibraheem/Mixture-of-Attention-Schemes-MoASで利用可能です。
関連論文リスト
- RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - MoQAE: Mixed-Precision Quantization for Long-Context LLM Inference via Mixture of Quantization-Aware Experts [29.11217299899888]
MoQAEは、量子化の専門家の混合による混合精度量子化法である。
この結果から,MoQAEは最先端のKVキャッシュ量子化手法よりも効率と効率の両面で優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-09T08:16:24Z) - Efficient Leaf Disease Classification and Segmentation using Midpoint Normalization Technique and Attention Mechanism [0.0]
画像前処理のための2段階変換手法であるミドルポイント正規化(MPN)を導入する。
分類パイプラインは、例外的なクラスバランスを維持しながら、93%の精度を達成する。
セグメンテーションタスクでは,MPNを付加した入力を用いて,U-Netアーキテクチャ内の同一の注意ブロックをシームレスに統合する。
論文 参考訳(メタデータ) (2025-05-27T15:14:04Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Mixture of Routers [16.169900017745327]
我々は、Mixture of Routers (MoR) と呼ばれる効率的な微調整法を提案する。
MoRはジョイントセレクションに複数のサブルータを使用し、学習可能なメインルータを使用してサブルータの重みを決定する。
その結果、MoRは、ほとんどのタスクにおいてベースラインモデルよりも優れており、平均的なパフォーマンス改善は1%であることがわかった。
論文 参考訳(メタデータ) (2025-03-30T08:39:09Z) - Multi-matrix Factorization Attention [59.10039136733939]
MFA(Multi-Matrix Factorization Attention)とMFA-Key-Reuse(MFA-KR)を提案する。
MFAは、アテンションヘッドの数と次元の両方を効率的にスケールアップすることで、モデルキャパシティを向上させる。
MFA-KRはキーキャッシュを値として再利用することでメモリ要求をさらに削減する。
論文 参考訳(メタデータ) (2024-12-26T15:45:45Z) - Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。
現在のMoEモデルはパラメータ非効率をしばしば表示する。
我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:25:13Z) - Mixture of Attention Heads: Selecting Attention Heads Per Token [40.04159325505842]
Mixture of Attention Heads (MoA)は、マルチヘッドアテンションとMoEメカニズムを組み合わせた新しいアーキテクチャである。
MoAは、標準的なマルチヘッドアテンション層よりも強力なパフォーマンスを実現している。
MoAはまた、ヘッドのユーティリティを自動的に区別し、モデルの解釈可能性について議論するための新しい視点を提供する。
論文 参考訳(メタデータ) (2022-10-11T04:54:05Z) - Learning to Generate Content-Aware Dynamic Detectors [62.74209921174237]
サンプル適応型モデルアーキテクチャを自動的に生成する効率的な検出器の設計を新たに導入する。
動的ルーティングの学習を導くために、オブジェクト検出に適したコースツーファインの成層図を紹介します。
MS-COCOデータセットの実験により、CADDetはバニラルーティングに比べて10%少ないFLOPで1.8以上のmAPを達成することが示された。
論文 参考訳(メタデータ) (2020-12-08T08:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。