Fugu-MT 論文翻訳(概要): SQFT: Low-cost Model Adaptation in Low-precision Sparse Foundation Models

論文の概要: SQFT: Low-cost Model Adaptation in Low-precision Sparse Foundation Models

arxiv url: http://arxiv.org/abs/2410.03750v1
Date: Tue, 1 Oct 2024 19:49:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 16:40:48.960407
Title: SQFT: Low-cost Model Adaptation in Low-precision Sparse Foundation Models
Title（参考訳）: SQFT:低精度スパース基礎モデルにおける低コストモデル適応
Authors: Juan Pablo Muñoz, Jinjie Yuan, Nilesh Jain,
Abstract要約: SQFTは、大規模事前学習モデルの低精度スパースパラメータ効率微調整のためのエンドツーエンドソリューションである。 SQFTは資源制約のある環境で効果的なモデル操作を可能にする。 SQFTはまた、異なる数値精度の量子化重みとアダプタを持つという課題にも対処している。
参考スコア（独自算出の注目度）: 2.867517731896504
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large pre-trained models (LPMs), such as large language models, have become ubiquitous and are employed in many applications. These models are often adapted to a desired domain or downstream task through a fine-tuning stage. This paper proposes SQFT, an end-to-end solution for low-precision sparse parameter-efficient fine-tuning of LPMs, allowing for effective model manipulation in resource-constrained environments. Additionally, an innovative strategy enables the merging of sparse weights with low-rank adapters without losing sparsity and accuracy, overcoming the limitations of previous approaches. SQFT also addresses the challenge of having quantized weights and adapters with different numerical precisions, enabling merging in the desired numerical format without sacrificing accuracy. Multiple adaptation scenarios, models, and comprehensive sparsity levels demonstrate the effectiveness of SQFT. Models and code are available at https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.
Abstract（参考訳）: 大規模な事前学習モデル(LPM)は、大規模な言語モデルのようにユビキタスになり、多くのアプリケーションで使われている。これらのモデルはしばしば、微調整の段階を通じて、望ましいドメインまたは下流タスクに適合する。本稿では,LPMの低精度スパースパラメータ効率微調整のためのエンドツーエンドソリューションであるSQFTを提案し,資源制約環境における効率的なモデル操作を実現する。さらに、革新的な戦略により、スパースウェイトとローランクアダプタのマージが、従来のアプローチの限界を克服することなく、スパースウェイトとローランクアダプタのマージが可能になる。 SQFTはまた、異なる数値精度の量子化重みとアダプタを持つことの課題にも対処し、精度を犠牲にすることなく、所望の数値形式でのマージを可能にする。複数の適応シナリオ、モデル、および包括的疎度レベルは、SQFTの有効性を示す。モデルとコードはhttps://github.com/IntelLabs/Hardware-Aware-Aware-Automated-Machine-Learningで公開されている。

関連論文リスト

Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
ALWNN Empowered Automatic Modulation Classification: Conquering Complexity and Scarce Sample Conditions [24.59462798452397]
本稿では、適応軽量ウェーブレットニューラルネットワーク(ALWNN)とマルチショットフレームワーク(MALWNN)に基づく自動変調分類モデルを提案する。 ALWNNモデルは適応ウェーブレットニューラルネットワークと深度分離可能な畳み込みを統合することで、モデルパラメータの数と計算複雑性を低減する。 MALWNNの実験では、他のアルゴリズムと比較して、数ショットの学習シナリオでは優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2025-03-24T06:14:33Z)
Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。 LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文参考訳（メタデータ） (2025-02-03T17:50:34Z)
FineGates: LLMs Finetuning with Compression using Stochastic Gates [7.093692674858257]
大規模言語モデル(LLM)は、高い計算要求のため、完全な微調整に重大な課題をもたらす。低ランクのアダプタ層を学習するなど、軽量なファインタニング技術が提案されている。本稿では,フリーズベースモデルとタスク固有適応を同時に分散するゲートに基づくアダプタモデルを提案する。
論文参考訳（メタデータ） (2024-12-17T14:33:05Z)
GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。 GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文参考訳（メタデータ） (2024-10-30T11:16:04Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Accurate and Efficient Fine-Tuning of Quantized Large Language Models Through Optimal Balance [20.659750151408186]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示している。パラメータ量子化とローランド適応(LoRA)を組み合わせた既存ソリューション平衡ランク適応(Q-BaRA)と高ランク適応(QA-HiRA)を考慮した量子化微調整(QA-HiRA)を提案する。
論文参考訳（メタデータ） (2024-07-24T06:16:37Z)
Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。 CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文参考訳（メタデータ） (2024-02-27T08:47:19Z)
XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2024-02-27T08:18:02Z)
MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。 MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。 8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文参考訳（メタデータ） (2023-10-11T17:57:14Z)
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。その動機は量子化と適応の自由の不均衡度にある。 QA-LoRAは数行のコードで簡単に実装できる。
論文参考訳（メタデータ） (2023-09-26T07:22:23Z)
OWQ: Outlier-Aware Weight Quantization for Efficient Fine-Tuning and Inference of Large Language Models [15.461748851931588]
outlier-aware weight Quantization (OWQ)メソッドは、低精度表現によって大きな言語モデルのフットプリントを最小化する。 OWQは、量子化に敏感な構造的重みの小さなサブセットを優先順位付けし、それらを高精度に保存し、残りの高密度重みに高度に調整された量子化を適用する。 OWQを用いた3.1ビットモデルは、OPTQによって最適化された4ビットモデルと互換性があることを示した。
論文参考訳（メタデータ） (2023-06-04T06:33:13Z)
Robustness, Evaluation and Adaptation of Machine Learning Models in the Wild [4.304803366354879]
本研究では、ドメインシフトに対するロバスト性の障害の原因と、ドメインロバストモデルをトレーニングするためのアルゴリズムを提案する。モデル脆性の鍵となる原因はドメイン過度な適合であり、新しいトレーニングアルゴリズムはドメイン一般仮説を抑え、奨励する。
論文参考訳（メタデータ） (2023-03-05T21:41:16Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
Variational Inference with NoFAS: Normalizing Flow with Adaptive Surrogate for Computationally Expensive Models [7.217783736464403]
マルコフ連鎖モンテカルロのようなサンプリングに基づくアプローチの使用は、それぞれの可能性評価が計算的に高価であるときに難解になる可能性がある。変分推論と正規化フローを組み合わせた新しいアプローチは、潜在変数空間の次元と線形にしか成長しない計算コストによって特徴づけられる。本稿では,ニューラルネットワークサロゲートモデルの正規化フローパラメータと重みを代わりに更新する最適化戦略である,適応サロゲートを用いた正規化フロー(NoFAS)を提案する。
論文参考訳（メタデータ） (2021-08-28T14:31:45Z)
Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文参考訳（メタデータ） (2021-02-11T16:27:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。