論文の概要: SQFT: Low-cost Model Adaptation in Low-precision Sparse Foundation Models
- arxiv url: http://arxiv.org/abs/2410.03750v1
- Date: Tue, 1 Oct 2024 19:49:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 16:40:48.960407
- Title: SQFT: Low-cost Model Adaptation in Low-precision Sparse Foundation Models
- Title(参考訳): SQFT:低精度スパース基礎モデルにおける低コストモデル適応
- Authors: Juan Pablo Muñoz, Jinjie Yuan, Nilesh Jain,
- Abstract要約: SQFTは、大規模事前学習モデルの低精度スパースパラメータ効率微調整のためのエンドツーエンドソリューションである。
SQFTは資源制約のある環境で効果的なモデル操作を可能にする。
SQFTはまた、異なる数値精度の量子化重みとアダプタを持つという課題にも対処している。
- 参考スコア(独自算出の注目度): 2.867517731896504
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large pre-trained models (LPMs), such as large language models, have become ubiquitous and are employed in many applications. These models are often adapted to a desired domain or downstream task through a fine-tuning stage. This paper proposes SQFT, an end-to-end solution for low-precision sparse parameter-efficient fine-tuning of LPMs, allowing for effective model manipulation in resource-constrained environments. Additionally, an innovative strategy enables the merging of sparse weights with low-rank adapters without losing sparsity and accuracy, overcoming the limitations of previous approaches. SQFT also addresses the challenge of having quantized weights and adapters with different numerical precisions, enabling merging in the desired numerical format without sacrificing accuracy. Multiple adaptation scenarios, models, and comprehensive sparsity levels demonstrate the effectiveness of SQFT. Models and code are available at https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.
- Abstract(参考訳): 大規模な事前学習モデル(LPM)は、大規模な言語モデルのようにユビキタスになり、多くのアプリケーションで使われている。
これらのモデルはしばしば、微調整の段階を通じて、望ましいドメインまたは下流タスクに適合する。
本稿では,LPMの低精度スパースパラメータ効率微調整のためのエンドツーエンドソリューションであるSQFTを提案し,資源制約環境における効率的なモデル操作を実現する。
さらに、革新的な戦略により、スパースウェイトとローランクアダプタのマージが、従来のアプローチの限界を克服することなく、スパースウェイトとローランクアダプタのマージが可能になる。
SQFTはまた、異なる数値精度の量子化重みとアダプタを持つことの課題にも対処し、精度を犠牲にすることなく、所望の数値形式でのマージを可能にする。
複数の適応シナリオ、モデル、および包括的疎度レベルは、SQFTの有効性を示す。
モデルとコードはhttps://github.com/IntelLabs/Hardware-Aware-Aware-Automated-Machine-Learningで公開されている。
関連論文リスト
- GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。
GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。
ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Accurate and Efficient Fine-Tuning of Quantized Large Language Models Through Optimal Balance [20.659750151408186]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示している。
パラメータ量子化とローランド適応(LoRA)を組み合わせた既存ソリューション
平衡ランク適応(Q-BaRA)と高ランク適応(QA-HiRA)を考慮した量子化微調整(QA-HiRA)を提案する。
論文 参考訳(メタデータ) (2024-07-24T06:16:37Z) - Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。
CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文 参考訳(メタデータ) (2024-02-27T08:47:19Z) - XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。
パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-02-27T08:18:02Z) - QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
論文 参考訳(メタデータ) (2023-09-26T07:22:23Z) - OWQ: Outlier-Aware Weight Quantization for Efficient Fine-Tuning and
Inference of Large Language Models [15.461748851931588]
outlier-aware weight Quantization (OWQ)メソッドは、低精度表現によって大きな言語モデルのフットプリントを最小化する。
OWQは、量子化に敏感な構造的重みの小さなサブセットを優先順位付けし、それらを高精度に保存し、残りの高密度重みに高度に調整された量子化を適用する。
OWQを用いた3.1ビットモデルは、OPTQによって最適化された4ビットモデルと互換性があることを示した。
論文 参考訳(メタデータ) (2023-06-04T06:33:13Z) - Robustness, Evaluation and Adaptation of Machine Learning Models in the
Wild [4.304803366354879]
本研究では、ドメインシフトに対するロバスト性の障害の原因と、ドメインロバストモデルをトレーニングするためのアルゴリズムを提案する。
モデル脆性の鍵となる原因はドメイン過度な適合であり、新しいトレーニングアルゴリズムはドメイン一般仮説を抑え、奨励する。
論文 参考訳(メタデータ) (2023-03-05T21:41:16Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Variational Inference with NoFAS: Normalizing Flow with Adaptive
Surrogate for Computationally Expensive Models [7.217783736464403]
マルコフ連鎖モンテカルロのようなサンプリングに基づくアプローチの使用は、それぞれの可能性評価が計算的に高価であるときに難解になる可能性がある。
変分推論と正規化フローを組み合わせた新しいアプローチは、潜在変数空間の次元と線形にしか成長しない計算コストによって特徴づけられる。
本稿では,ニューラルネットワークサロゲートモデルの正規化フローパラメータと重みを代わりに更新する最適化戦略である,適応サロゲートを用いた正規化フロー(NoFAS)を提案する。
論文 参考訳(メタデータ) (2021-08-28T14:31:45Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。