論文の概要: One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments
- arxiv url: http://arxiv.org/abs/2405.20202v1
- Date: Thu, 30 May 2024 16:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 13:29:24.538981
- Title: One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments
- Title(参考訳): ALLのための1つのQuantLLM: 効率的なデプロイのための微調整量子化LDM
- Authors: Ke Yi, Yuhui Xu, Heng Chang, Chen Tang, Yuan Meng, Tong Zhang, Jia Li,
- Abstract要約: 大規模言語モデル(LLM)は急速に進歩しているが、かなりのメモリ需要に直面している。
現在の方法では、量子化損失によるパフォーマンス劣化を軽減するために、通常、長いトレーニングが必要です。
我々は、一度限りのフレームワークを大規模言語モデルに拡張する最初の試みを行っている。
- 参考スコア(独自算出の注目度): 43.107261545706415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have advanced rapidly but face significant memory demands. While quantization has shown promise for LLMs, current methods typically require lengthy training to alleviate the performance degradation from quantization loss. However, deploying LLMs across diverse scenarios with different resource constraints, e.g., servers and personal computers, requires repeated training per application, which amplifies the lengthy training problem. Given that, it is advantageous to train a once-for-all (OFA) supernet capable of yielding diverse optimal subnets for downstream applications through one-shot training. Nonetheless, the scale of current language models impedes efficiency and amplifies interference from weight sharing between subnets. We make an initial attempt to extend the once-for-all framework to large language models. Specifically, we decouple shared weights to eliminate the interference and incorporate Low-Rank adapters for training efficiency. Furthermore, we observe the imbalance allocation of training resources from the traditional uniform sampling. A non-parametric scheduler is introduced to adjust the sampling rate for each quantization configuration, achieving a more balanced allocation among subnets with varying demands. We validate the approach on LLaMA2 families, and downstream evaluation confirms our ability to maintain high performance while significantly reducing deployment time faced with multiple scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は急速に進歩しているが、かなりのメモリ需要に直面している。
量子化はLLMの可能性を示してきたが、現在の手法は量子化損失による性能劣化を軽減するために、通常、長い訓練を必要とする。
しかし、サーバやパーソナルコンピュータといったリソース制約の異なる様々なシナリオにLLMをデプロイするには、アプリケーション毎に繰り返しトレーニングする必要があるため、長いトレーニング問題を増幅する。
これを踏まえると、ワンショットトレーニングにより下流アプリケーションに多様な最適なサブネットを得ることができる、一度限りの(OFA)スーパーネットをトレーニングすることが有利である。
それでも、現在の言語モデルのスケールは効率を阻害し、サブネット間の重み共有からの干渉を増幅する。
我々は、一度限りのフレームワークを大規模言語モデルに拡張する最初の試みを行っている。
具体的には、共有重みを分離して干渉を排除し、訓練効率を高めるためにローランドアダプタを組み込む。
さらに,従来の均一サンプリングからトレーニングリソースの不均衡を観察する。
非パラメトリックスケジューラを導入し、各量子化構成のサンプリング率を調整し、要求に応じてサブネット間でよりバランスの取れたアロケーションを実現する。
LLaMA2ファミリに対するアプローチを検証するとともに,ダウンストリーム評価により,複数のシナリオに直面するデプロイメント時間を大幅に削減しつつ,高いパフォーマンスを維持する能力が確認される。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Federated Split Learning with Model Pruning and Gradient Quantization in Wireless Networks [7.439160287320074]
Federated split learning (FedSL)は、モデル分割によるエッジデバイスとサーバ間の協調トレーニングを実装している。
本稿では,リソース制約のあるエッジデバイスのトレーニング負担を軽減する軽量なFedSL方式を提案する。
提案手法の収束性能を定量化するために理論的解析を行う。
論文 参考訳(メタデータ) (2024-12-09T11:43:03Z) - Multi-Bin Batching for Increasing LLM Inference Throughput [19.652542432683234]
大規模言語モデル(LL)は、システムの効率性を向上させるために人気が高まっている。
リクエストはサーバ上のジョブをスケジューリングする重要なステップです。
リクエストは、しばしば異なる生成長を持ち、リソースの未利用を引き起こす。
我々は、この問題をキューイング理論の観点から形式化し、スループット制御ポリシーを設計することを目的とする。
論文 参考訳(メタデータ) (2024-12-03T03:16:12Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
論文 参考訳(メタデータ) (2023-09-26T07:22:23Z) - Multimodal Parameter-Efficient Few-Shot Class Incremental Learning [1.9220716793379256]
FSCIL(Few-Shot Class Incremental Learning)は、いくつかの学習セッションで限られたトレーニング例が利用できる、挑戦的な継続的学習タスクである。
このタスクを成功させるためには、数発のトレーニングセットにおけるバイアス分布に起因する新しいクラスを過度に適合させるのを避ける必要がある。
CPE-CLIPは、最先端の提案と比較してFSCILの性能を著しく改善すると同時に、学習可能なパラメータの数やトレーニングコストを大幅に削減する。
論文 参考訳(メタデータ) (2023-03-08T17:34:15Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。