論文の概要: House of Cards: Massive Weights in LLMs
- arxiv url: http://arxiv.org/abs/2410.01866v1
- Date: Wed, 2 Oct 2024 11:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 10:14:15.513085
- Title: House of Cards: Massive Weights in LLMs
- Title(参考訳): ハウス・オブ・カード:LLMの重量が大きすぎる
- Authors: Jaehoon Oh, Seungjun Shin, Dokwan Oh,
- Abstract要約: 隠れ状態の特定の特徴次元に現れる大量活性化は、大きな言語モデル(LLM)に顕著なバイアスをもたらす
本稿では,初期層におけるフィードフォワードネットワークモジュールの中間状態ではなく,隠れ状態から大量のアクティベーションが生じることを確認した。
そこで本研究では,パラメータ効率の良い微調整を行う際の重みを少なくするため,MacDropと呼ばれる簡単なプラグアンドプレイ方式を提案する。
- 参考スコア(独自算出の注目度): 9.73180898820304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Massive activations, which manifest in specific feature dimensions of hidden states, introduce a significant bias in large language models (LLMs), leading to an overemphasis on the corresponding token. In this paper, we identify that massive activations originate not from the hidden state but from the intermediate state of a feed-forward network module in an early layer. Expanding on the previous observation that massive activations occur only in specific feature dimensions, we dive deep into the weights that cause massive activations. Specifically, we define top-$k$ massive weights as the weights that contribute to the dimensions with the top-$k$ magnitudes in the intermediate state. When these massive weights are set to zero, the functionality of LLMs is entirely disrupted. However, when all weights except for massive weights are set to zero, it results in a relatively minor performance drop, even though a much larger number of weights are set to zero. This implies that during the pre-training process, learning is dominantly focused on massive weights. Building on this observation, we propose a simple plug-and-play method called MacDrop (massive weights curriculum dropout), to rely less on massive weights during parameter-efficient fine-tuning. This method applies dropout to the pre-trained massive weights, starting with a high dropout probability and gradually decreasing it as fine-tuning progresses. Through experiments, we demonstrate that MacDrop generally improves performance across zero-shot downstream tasks and generation tasks.
- Abstract(参考訳): 隠れ状態の特定の特徴次元に現れる大規模なアクティベーションは、大きな言語モデル(LLM)に顕著なバイアスをもたらし、対応するトークンに過剰なエンハンシスをもたらす。
本稿では,初期層におけるフィードフォワードネットワークモジュールの中間状態ではなく,隠れ状態から大量のアクティベーションが生じることを確認した。
前回の観察で、大きな活性化は特定の特徴次元でしか起こらないという結果から、私たちは巨大な活性化を引き起こす重みを深く掘り下げる。
具体的には、中間状態の次元に寄与する重みとして、トップ=k$質量を定義する。
これらの重みがゼロに設定されると、LLMの機能は完全に破壊される。
しかし、重み以外の全ての重みがゼロに設定されると、より多くの重みがゼロに設定されているにもかかわらず、比較的小さな性能低下が生じる。
これは、事前学習の過程において、学習は大きな重みに集中していることを意味する。
そこで本研究では,MacDrop(重み付けカリキュラムのドロップアウト)と呼ばれる簡易なプラグアンドプレイ方式を提案する。
この方法は、事前訓練された大量の重量に対して、高い降下確率から始まり、微調整が進むにつれて徐々に減少する。
実験により、MacDropは一般的に、ゼロショットダウンストリームタスクとジェネレーションタスクにまたがるパフォーマンスを改善することを示した。
関連論文リスト
- The Super Weight in Large Language Models [6.517859480071098]
単一のパラメータでしか実行できないことは、LLMがテキストを生成する能力を損なう可能性がある。
超重みと呼ばれるパラメータを識別するためのデータフリー手法を提案する。
重み量子化では、スーパーウェイトを保存し、他のウェイトアウトレーヤを切断することで、ラウンド・ツー・アネレスト量子化は以前考えられていたよりもはるかに大きなブロックサイズにスケールできる。
論文 参考訳(メタデータ) (2024-11-11T18:05:48Z) - IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAを提案し、整数型(INT)低ランクパラメータを用いて効率限界を押し上げ、量子化拡散モデルに適応させる。
IntLoRAには3つの大きな利点がある: (i) 微調整の場合、事前トレーニングされた重みは量子化され、メモリ使用量が減少する (ii) ストレージの場合、事前トレーニングされた重みと低ランクの重みの両方が、ディスクスペースを少なく消費するINT内にある; (iii) 推論の場合、IntLoRA重みは、効率的な整数乗算やビットシフトによって自然に量子化された事前トレーニングされた重みにマージできる。
論文 参考訳(メタデータ) (2024-10-29T05:50:17Z) - MagR: Weight Magnitude Reduction for Enhancing Post-Training Quantization [6.15064968496484]
トレーニング後の量子化性能を向上させるため,重み付きマグニチュード(MagR)を提案する。
各線形層に対して, $ell_infty$-regularized optimization 問題を解くことにより,事前学習した浮動小数点重みを調整する。
MagRは、Llamaファミリーのモデル上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-02T17:00:02Z) - Head-wise Shareable Attention for Large Language Models [56.92068213969036]
大きな言語モデル(LLM)は膨大な数のパラメータに悩まされており、エッジデバイスへのデプロイメントを制限している。
ウェイトシェアリングは、ウェイト再利用を促進する有望なソリューションのひとつで、メモリ使用量を効果的に削減し、パフォーマンスを低下させる。
本稿では,大規模言語モデルにおける頭部的共通性に着目した視点を示す。
論文 参考訳(メタデータ) (2024-02-19T04:19:36Z) - Fast and Effective Weight Update for Pruned Large Language Models [0.0]
大きな言語モデル(LLMs)のプルーニングは、その巨大なサイズのため、難しい作業である。
最近のアプローチでは、微調整を完全に無視するか、レイヤワイド更新を試みた。
乗算器の交互方向法に基づく切削層に対する高速かつ効率的な重み更新アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-01T23:10:23Z) - Pruning Small Pre-Trained Weights Irreversibly and Monotonically Impairs
"Difficult" Downstream Tasks in LLMs [71.56345106591789]
大型言語モデル(LLM)の重みには、かなりの冗長性が含まれていると信じられている。
本稿では,下流の難題に対処する上で必要となる重要な知識を包含する,事前訓練されたモデル重みの小さなマグニチュード重みについて述べる。
論文 参考訳(メタデータ) (2023-09-29T22:55:06Z) - A Simple and Effective Pruning Approach for Large Language Models [58.716255689941896]
大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。
しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。
我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
論文 参考訳(メタデータ) (2023-06-20T17:18:20Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。