論文の概要: BitDelta: Your Fine-Tune May Only Be Worth One Bit
- arxiv url: http://arxiv.org/abs/2402.10193v2
- Date: Wed, 28 Feb 2024 03:42:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:54:07.107273
- Title: BitDelta: Your Fine-Tune May Only Be Worth One Bit
- Title(参考訳): BitDelta:あなたのファインチューンは1ビットの価値しかないかもしれない
- Authors: James Liu, Guangxuan Xiao, Kai Li, Jason D. Lee, Song Han, Tri Dao,
Tianle Cai
- Abstract要約: 大規模言語モデル(LLM)は通常、大規模なインターネットスケールデータセットの事前トレーニングと、下流タスクの微調整という2つのフェーズでトレーニングされる。
我々は,このデルタを1ビットまで量子化する簡単な手法BitDeltaを導入し,性能を損なうことなく実現した。
複数の1ビットデルタを伴う1つの高精度ベースモデルを使用することで、BitDeltaはGPUメモリの要求を劇的に10倍に削減する。
- 参考スコア(独自算出の注目度): 60.44468282930883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are typically trained in two phases:
pre-training on large internet-scale datasets, and fine-tuning for downstream
tasks. Given the higher computational demand of pre-training, it's intuitive to
assume that fine-tuning adds less new information to the model, and is thus
more compressible. We explore this assumption by decomposing the weights of
fine-tuned models into their pre-trained components and an additional delta. We
introduce a simple method, BitDelta, which successfully quantizes this delta
down to 1 bit without compromising performance. This interesting finding not
only highlights the potential redundancy of information added during
fine-tuning, but also has significant implications for the multi-tenant serving
and multi-tenant storage of fine-tuned models. By enabling the use of a single
high-precision base model accompanied by multiple 1-bit deltas, BitDelta
dramatically reduces GPU memory requirements by more than 10x, which can also
be translated to enhanced generation latency in multi-tenant settings. We
validate BitDelta through experiments across Llama-2 and Mistral model
families, and on models up to 70B parameters, showcasing minimal performance
degradation over all tested settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は通常、大規模なインターネットスケールデータセットの事前トレーニングと、下流タスクの微調整という2つのフェーズでトレーニングされる。
事前学習の計算要求が高くなると、微調整がモデルに新しい情報を加えず、圧縮しやすいと仮定するのは直感的である。
この仮定は、微調整されたモデルの重みを、事前訓練されたコンポーネントと追加のデルタに分解することで検討する。
我々は,このデルタを1ビットまで量子化する簡単な手法BitDeltaを導入し,性能を損なうことなく実現した。
この興味深い発見は、微調整中に追加された情報の冗長性を示すだけでなく、微調整されたモデルのマルチテナントサービスとマルチテナントストレージに大きな影響を与える。
複数の1ビットデルタを伴う1つの高精度ベースモデルを使用することで、BitDeltaはGPUメモリの要求を劇的に10倍に削減し、マルチテナント設定で生成遅延を向上することが可能になる。
我々は、Llama-2とMistralモデルファミリ、最大70Bパラメータのモデルによる実験を通じてBitDeltaを検証する。
関連論文リスト
- DeltaDQ: Ultra-High Delta Compression for Fine-Tuned LLMs via Group-wise Dropout and Separate Quantization [17.501956455837707]
大規模言語モデルは、教師付き微調整により、様々な下流タスクにおいて例外的なパフォーマンスを達成する。
デルタ重量を圧縮する現在の方法は超高圧縮を達成するのに苦労している。
デルタ重みの超高圧縮を実現するために,分布駆動型デルタ圧縮フレームワークデルタDQを提案する。
論文 参考訳(メタデータ) (2024-10-11T09:44:16Z) - ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Models [43.29533894162248]
LLMの開発には、大量のデータに基づく基礎モデルの事前トレーニングと、専門的な専門家を作成するためのタスク固有のデータの微調整が含まれる。
以前のアプローチでは、事前訓練された重みとデルタ重みとして専門家の重みを分解し、続いてデルタ重みを定量化してモデルサイズを減少させた。
複数のLLMを提供するのに適したメモリ効率の高いエキスパートスイッチングフレームワークであるME-Switchを紹介する。
論文 参考訳(メタデータ) (2024-06-13T12:27:55Z) - OpenDelta: A Plug-and-play Library for Parameter-efficient Adaptation of
Pre-trained Models [81.7855202178564]
我々は,様々なデルタチューニング手法のプラグアンドプレイ実装を提供することで,制限を克服するオープンソースライブラリであるOpenDeltaを提案する。
我々の新しい技術は、バックボーン PTM のコードを変更する必要をなくし、OpenDelta を異なる新しい PTM と互換性を持たせる。
論文 参考訳(メタデータ) (2023-07-05T16:30:14Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Memory-Efficient Pipeline-Parallel DNN Training [27.83107540482083]
PipeDream-2BWは、メモリ効率の高いパイプライン並列処理をサポートするシステムである。
大規模なGPTおよびBERT言語モデルのトレーニングを20$times$で、同様の最終モデルの精度で高速化することができる。
論文 参考訳(メタデータ) (2020-06-16T20:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。