論文の概要: DHA: Learning Decoupled-Head Attention from Transformer Checkpoints via Adaptive Heads Fusion
- arxiv url: http://arxiv.org/abs/2406.06567v1
- Date: Mon, 3 Jun 2024 13:28:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 00:11:14.431938
- Title: DHA: Learning Decoupled-Head Attention from Transformer Checkpoints via Adaptive Heads Fusion
- Title(参考訳): DHA:適応型頭融合による変圧器チェックポイントからの非結合型注意の学習
- Authors: Yilong Chen, Linhao Zhang, Junyuan Shang, Zhenyu Zhang, Tingwen Liu, Shuohuan Wang, Yu Sun,
- Abstract要約: 大規模言語モデル(LLM)のためのDHA(Decoupled-Head Attention)機構を提案する。
DHAは、様々なレイヤにわたるキーヘッドとバリューヘッドのグループ共有を適応的に構成し、パフォーマンスと効率のバランスを改善する。
我々の実験によると、DHAは97.6%の性能を達成するために、オリジナルのモデルの事前訓練予算のわずか0.25%しか必要としていない。
- 参考スコア(独自算出の注目度): 29.531814426276885
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) with billions of parameters demonstrate impressive performance. However, the widely used Multi-Head Attention (MHA) in LLMs incurs substantial computational and memory costs during inference. While some efforts have optimized attention mechanisms by pruning heads or sharing parameters among heads, these methods often lead to performance degradation or necessitate substantial continued pre-training costs to restore performance. Based on the analysis of attention redundancy, we design a Decoupled-Head Attention (DHA) mechanism. DHA adaptively configures group sharing for key heads and value heads across various layers, achieving a better balance between performance and efficiency. Inspired by the observation of clustering similar heads, we propose to progressively transform the MHA checkpoint into the DHA model through linear fusion of similar head parameters step by step, retaining the parametric knowledge of the MHA checkpoint. We construct DHA models by transforming various scales of MHA checkpoints given target head budgets. Our experiments show that DHA remarkably requires a mere 0.25\% of the original model's pre-training budgets to achieve 97.6\% of performance while saving 75\% of KV cache. Compared to Group-Query Attention (GQA), DHA achieves a 5$\times$ training acceleration, a maximum of 13.93\% performance improvement under 0.01\% pre-training budget, and 4\% relative improvement under 0.05\% pre-training budget.
- Abstract(参考訳): 数十億のパラメータを持つ大規模言語モデル(LLM)は、素晴らしいパフォーマンスを示している。
しかし、LLMにおけるMHA(Multi-Head Attention)は、推論中にかなりの計算コストとメモリコストを発生させる。
ヘッドを切断したり、ヘッド間でパラメータを共有することで注意機構を最適化する試みもあるが、これらの手法は性能低下や性能回復のためにかなりの事前訓練コストを必要とすることが多い。
注意力の冗長性の分析に基づいて,DHA(Decoupled-Head Attention)機構を設計する。
DHAは、様々なレイヤにわたるキーヘッドとバリューヘッドのグループ共有を適応的に構成し、パフォーマンスと効率のバランスを改善する。
そこで本研究では,MHAチェックポイントのパラメトリック知識を維持しつつ,類似頭部パラメータの線形融合を段階的に行うことで,MHAチェックポイントをDHAモデルに段階的に変換することを提案する。
DHA モデルの構築には,目標とする予算に応じて様々な MHA チェックポイントを変換する。
我々の実験によると、DHAは、75パーセントのKVキャッシュを節約しながら97.6%のパフォーマンスを達成するために、オリジナルのモデルの事前トレーニング予算のわずか0.25\%しか必要としていない。
グループクエリアテンション(GQA)と比較して、DHAは5$\times$トレーニングアクセラレーション、最大13.93\%の事前トレーニング予算、0.05\%の相対的な改善を達成している。
関連論文リスト
- Hymba: A Hybrid-head Architecture for Small Language Models [65.94140459055244]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。
重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。
このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (2024-11-20T19:51:25Z) - MoH: Multi-Head Attention as Mixture-of-Head Attention [63.67734699877724]
我々は、トランスフォーマーモデルのコアであるマルチヘッドアテンション機構をアップグレードし、以前の精度を維持したり、超えたりしながら効率を向上させる。
そこで我々は,Mixture-of-Head attention (MoH)を提案する。
まず、MoHは各トークンが適切なアテンションヘッドを選択することを可能にし、精度を損なうことなく推論効率を向上させる。
論文 参考訳(メタデータ) (2024-10-15T17:59:44Z) - Zero-Shot Embeddings Inform Learning and Forgetting with Vision-Language Encoders [6.7181844004432385]
IMM(Inter-Intra Modal Measure)は、微調整によるパフォーマンス変化の強力な予測器として機能する。
IIMMスコアの高いタスクの微調整はドメイン内のパフォーマンス向上をもたらすが、ドメイン外のパフォーマンス低下も引き起こす。
ターゲットデータの1つのフォワードパスだけで、実践者は、この重要な洞察を利用して、モデルが微調整後の改善を期待できる程度を評価することができる。
論文 参考訳(メタデータ) (2024-07-22T15:35:09Z) - Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。
提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文 参考訳(メタデータ) (2024-06-11T08:37:33Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Mitigating the Alignment Tax of RLHF [76.4300447532456]
強化学習(Reinforcement Learning)とヒューマンフィードバック(Human Feedback)の下のLLMの調整は、事前訓練された能力(アライメント税(アライメント税)としても知られる)を忘れてしまう可能性がある。
最小アライメント税を課しながらアライメント性能を最大化するためのモデル平均化を提案する。
我々は,OpenLLaMA-3B上でのRLHFアルゴリズムによるHMAの性能評価を行い,さらにMistral-7Bまで拡張した。
論文 参考訳(メタデータ) (2023-09-12T14:16:54Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文 参考訳(メタデータ) (2021-10-13T17:24:12Z) - Cascaded Head-colliding Attention [28.293881246428377]
トランスフォーマーは、様々な重要なタスクにおいて自然言語処理(NLP)の分野を進歩させてきた。
本稿では, 階層的変動分布を通して, 注目頭部間の相互作用を明示的にモデル化するCODA(Cascaded Head-colliding attention)を提案する。
論文 参考訳(メタデータ) (2021-05-31T10:06:42Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。