論文の概要: Mamba-PTQ: Outlier Channels in Recurrent Large Language Models
- arxiv url: http://arxiv.org/abs/2407.12397v1
- Date: Wed, 17 Jul 2024 08:21:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 17:57:42.042245
- Title: Mamba-PTQ: Outlier Channels in Recurrent Large Language Models
- Title(参考訳): Mamba-PTQ: 逐次大規模言語モデルにおける外部チャネル
- Authors: Alessandro Pierro, Steven Abreu,
- Abstract要約: 本研究では,マンバモデルが注目型LLMで観測された異常チャネルと同じパターンを示すことを示す。
本研究では,SSMの定量化が難しい理由は,トランスフォーマーベースLLMで見られるような,アクティベーションアウトレーヤによるものであることを示す。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern recurrent layers are emerging as a promising path toward edge deployment of foundation models, especially in the context of large language models (LLMs). Compressing the whole input sequence in a finite-dimensional representation enables recurrent layers to model long-range dependencies while maintaining a constant inference cost for each token and a fixed memory requirement. However, the practical deployment of LLMs in resource-limited environments often requires further model compression, such as quantization and pruning. While these techniques are well-established for attention-based models, their effects on recurrent layers remain underexplored. In this preliminary work, we focus on post-training quantization for recurrent LLMs and show that Mamba models exhibit the same pattern of outlier channels observed in attention-based LLMs. We show that the reason for the difficulty of quantizing SSMs is caused by activation outliers, similar to those observed in transformer-based LLMs. We report baseline results for post-training quantization of Mamba that do not take into account the activation outliers and suggest first steps for outlier-aware quantization.
- Abstract(参考訳): 最新のリカレントレイヤは、特に大規模言語モデル(LLM)のコンテキストにおいて、基礎モデルのエッジデプロイメントへの有望な道として現れています。
有限次元表現で入力シーケンス全体を圧縮することにより、各トークンに対する一定の推論コストと固定メモリ要求を維持しながら、繰り返しレイヤが長距離依存をモデル化することができる。
しかし、資源制限された環境でのLLMの実践的な展開は、量子化やプルーニングのようなさらなるモデル圧縮を必要とすることが多い。
これらの手法は注意に基づくモデルでは十分に確立されているが、繰り返し発生する層に対する影響は未解明のままである。
本稿では,再帰型LDMの学習後量子化に着目し,注意型LDMで観測される外れ値チャネルのパターンが,Mambaモデルと同じであることを示す。
本研究では,SSMの定量化が難しい理由は,トランスフォーマーベースLLMで見られるような,アクティベーションアウトレーヤによるものであることを示す。
本稿では,アクティベーションアウトレーヤを考慮しないMambaのトレーニング後量子化のベースライン結果について報告する。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - MQuant: Unleashing the Inference Potential of Multimodal Large Language Models via Full Static Quantization [15.01214559812713]
MQuantは、マルチモーダル大規模言語モデル(MLLM)の課題に取り組むために設計されたポストトレーニング量子化フレームワークである。
5つのメインストリームMLLM(Qwen-VL, Mini-V, CogVLM2)では、W4A8のMQuantがほぼ浮動小数点精度(1%劣化)を実現し、推論遅延を最大30%削減する。
論文 参考訳(メタデータ) (2025-02-01T13:08:02Z) - Scaling Laws for Post Training Quantized Large Language Models [41.78467383320145]
良く訓練された大言語モデル(LLM)の一般化能力は、モデルサイズの関数として予測可能であることが知られている。
後処理後圧縮後のLCMの品質は予測不可能であり,ケースバイケースの検証が必要となることが多い。
論文 参考訳(メタデータ) (2024-10-15T23:34:22Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs [38.93090238335506]
非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。
本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。
以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-06-24T20:29:16Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
本稿では,自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
これらの課題に対処するため、我々は自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - CMamba: Channel Correlation Enhanced State Space Models for Multivariate Time Series Forecasting [18.50360049235537]
ステートスペースモデルであるMambaは、堅牢なシーケンスと機能ミキシング機能を備えている。
チャネル間の依存関係のキャプチャは、時系列予測のパフォーマンス向上に不可欠である。
時系列予測に適した改良されたマンバ変種を導入する。
論文 参考訳(メタデータ) (2024-06-08T01:32:44Z) - Why Lift so Heavy? Slimming Large Language Models by Cutting Off the
Layers [2.1165011830664673]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対処する際、優れた能力を持っている。
これらのモデルの厳密なサイズは、ストレージ、トレーニング、推論において、層積み重ねによる数十億のパラメータを含むため、課題を生じさせる。
レイヤが少なくても、LLMは、特にテキスト分類タスクのプロンプトベースの微調整において、類似またはより良いパフォーマンスレベルを維持していることを示す。
論文 参考訳(メタデータ) (2024-02-18T20:47:10Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。