論文の概要: Head-wise Shareable Attention for Large Language Models
- arxiv url: http://arxiv.org/abs/2402.11819v1
- Date: Mon, 19 Feb 2024 04:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 18:27:49.345767
- Title: Head-wise Shareable Attention for Large Language Models
- Title(参考訳): 大規模言語モデルのための頭部共有型注意
- Authors: Zouying Cao, Yifei Yang, Hai Zhao
- Abstract要約: 大きな言語モデル(LLM)は膨大な数のパラメータに悩まされており、エッジデバイスへのデプロイメントを制限している。
ウェイトシェアリングは、ウェイト再利用を促進する有望なソリューションのひとつで、メモリ使用量を効果的に削減し、パフォーマンスを低下させる。
我々は、大きな言語モデルに対して、textit$textbfhead-wiseの共有可能な注意を向ける。
- 参考スコア(独自算出の注目度): 63.973142426228016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) suffer from huge number of parameters, which
restricts their deployment on edge devices. Weight sharing is one promising
solution that encourages weight reuse, effectively reducing memory usage with
less performance drop. However, current weight sharing techniques primarily
focus on small-scale models like BERT and employ coarse-grained sharing rules,
e.g., layer-wise. This becomes limiting given the prevalence of LLMs and
sharing an entire layer or block obviously diminishes the flexibility of weight
sharing. In this paper, we present a perspective on $\textit{$\textbf{head-wise
shareable attention for large language models}$}$. We further propose two
memory-efficient methods that share parameters across attention heads, with a
specific focus on LLMs. Both of them use the same dynamic strategy to select
the shared weight matrices. The first method directly reuses the pre-trained
weights without retraining, denoted as $\textbf{DirectShare}$. The second
method first post-trains with constraint on weight matrix similarity and then
shares, denoted as $\textbf{PostShare}$. Experimental results reveal our
head-wise shared models still maintain satisfactory capabilities, demonstrating
the feasibility of fine-grained weight sharing applied to LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は膨大な数のパラメータに悩まされており、エッジデバイスへのデプロイメントを制限する。
ウェイトシェアリングは、ウェイト再利用を促進する有望なソリューションのひとつで、メモリ使用量を効果的に削減し、パフォーマンスを低下させる。
しかし、現在の重み共有技術は主にBERTのような小規模モデルに焦点を合わせ、層単位で粗い粒度の共有ルールを採用する。
LLMが普及し、レイヤ全体やブロックの共有が明らかに重量共有の柔軟性を低下させるため、これは制限となる。
本稿では、大言語モデルに対する$\textit{$\textbf{head-wise Shareable attention for large language model}$}$について述べる。
さらに,注意ヘッド間でパラメータを共有する2つのメモリ効率のよい手法を提案する。
どちらも共有重み行列を選択するのに同じ動的戦略を用いる。
最初の方法は、トレーニングせずにトレーニング済みのウェイトを直接再利用し、$\textbf{DirectShare}$と表記する。
2つ目の方法は、まず重み行列の類似性に制約を課し、次に共有し、$\textbf{PostShare}$と表記する。
実験結果から, 頭部共有モデルは良好な機能を維持しており, LLMに適用した微細な重量共有の実現可能性を示している。
関連論文リスト
- FuseChat: Knowledge Fusion of Chat Models [54.05930586705375]
textscFuseChatはチャットLLMの融合を実現するフレームワークである。
textttFuseChat は texttGPT-3.5 (3月) よりも優れており、 textttMixtral-8x7B-Instruct に近づいている。
論文 参考訳(メタデータ) (2024-02-25T15:11:58Z) - Efficient Multimodal Learning from Data-centric Perspective [22.429612780327282]
本稿では, フレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介し, 凝縮学習データから効率的なマルチモーダル学習を実現する。
注目すべきは、Bunny-3Bは最先端の大規模なMLLM、特にLLaVA-v1.5-13Bを複数のベンチマークで上回ることです。
論文 参考訳(メタデータ) (2024-02-18T10:09:10Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - NOLA: Networks as Linear Combination of Low Rank Random Basis [24.418919441014985]
我々は、ロラに存在するランク1の下界を克服するNOLAを導入する。
自然言語およびコンピュータビジョンタスクにおける GPT-2 と ViT を用いた適応結果を提案する。
論文 参考訳(メタデータ) (2023-10-04T03:30:24Z) - LoRA ensembles for large language model fine-tuning [35.78186948630364]
Low-Rank Adapters (LoRA) はパラメータ効率の良い微調整技術である。
LoRAは非常に少数のパラメータを表しており、基礎となる事前訓練モデルよりも桁違いに少ない。
LoRAアンサンブルは,既存の正則化技術上にのみ適用され,予測精度と不確実性の定量化に一貫した改善をもたらすことが判明した。
論文 参考訳(メタデータ) (2023-09-29T16:38:38Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - A Simple and Effective Pruning Approach for Large Language Models [64.14329119421305]
大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。
しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。
我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
論文 参考訳(メタデータ) (2023-06-20T17:18:20Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and
Acceleration [55.81584625546475]
アクティベーション・アウェア・ウェイト量子化(AWQ)は、大規模言語モデル(LLM)に対するハードウェアフレンドリーなアプローチである。
AWQはいかなるバックプロパゲーションや再構築にも依存していない。
命令チューニングされたLMと、初めてマルチモーダルなLMに対して優れた量子化性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。