Fugu-MT 論文翻訳(概要): Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs

論文の概要: Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs

arxiv url: http://arxiv.org/abs/2310.08915v3
Date: Mon, 26 Feb 2024 02:51:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 21:55:13.183825
Title: Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs
Title（参考訳）: 動的スパースなしトレーニング:スパースllmのトレーニングフリー微調整
Authors: Yuxin Zhang, Lirui Zhao, Mingbao Lin, Yunyun Sun, Yiwu Yao, Xingjia Han, Jared Tanner, Shiwei Liu, Rongrong Ji
Abstract要約: そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
参考スコア（独自算出の注目度）: 67.38165028487242
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ever-increasing large language models (LLMs), though opening a potential path for the upcoming artificial general intelligence, sadly drops a daunting obstacle on the way towards their on-device deployment. As one of the most well-established pre-LLMs approaches in reducing model complexity, network pruning appears to lag behind in the era of LLMs, due mostly to its costly fine-tuning (or re-training) necessity under the massive volumes of model parameter and training data. To close this industry-academia gap, we introduce Dynamic Sparse No Training (DSnoT), a training-free fine-tuning approach that slightly updates sparse LLMs without the expensive backpropagation and any weight updates. Inspired by the Dynamic Sparse Training, DSnoT minimizes the reconstruction error between the dense and sparse LLMs, in the fashion of performing iterative weight pruning-and-growing on top of sparse LLMs. To accomplish this purpose, DSnoT particularly takes into account the anticipated reduction in reconstruction error for pruning and growing, as well as the variance w.r.t. different input data for growing each weight. This practice can be executed efficiently in linear time since its obviates the need of backpropagation for fine-tuning LLMs. Extensive experiments on LLaMA-V1/V2, Vicuna, and OPT across various benchmarks demonstrate the effectiveness of DSnoT in enhancing the performance of sparse LLMs, especially at high sparsity levels. For instance, DSnoT is able to outperform the state-of-the-art Wanda by 26.79 perplexity at 70% sparsity with LLaMA-7B. Our paper offers fresh insights into how to fine-tune sparse LLMs in an efficient training-free manner and open new venues to scale the great potential of sparsity to LLMs. Codes are available at https://github.com/zyxxmu/DSnoT.
Abstract（参考訳）: 今後も増え続ける大型言語モデル(LLM)は、今後の人工知能(AI)への潜在的な道を開く一方で、デバイス上での展開に向けて途方もない障害を乗り越えている。モデル複雑性の低減において、LLMが確立したアプローチの1つとして、ネットワークプルーニングは、大量のモデルパラメータとトレーニングデータの下で、コストのかかる微調整(または再訓練)の必要性のため、LLMの時代に遅れているように見える。この業界と学界のギャップを埋めるために、私たちは、高価なバックプロパゲーションやウェイトアップデートなしに、わずかにスパースLSMを更新するトレーニング不要の微調整アプローチであるDynamic Sparse No Training (DSnoT)を導入しました。 Dynamic Sparse TrainingにインスパイアされたDSnoTは、Sparse LLM上で反復的に重量を刈り上げ、成長させる方法で、高密度LLMとスパースLLMの再構成誤差を最小限に抑える。この目的を達成するため、DSnoTは特に、各重みを成長させるための差分w.r.t.異なる入力データと同様に、刈り込みおよび成長のための復元誤差の期待値の低減を考慮に入れている。このプラクティスは、微調整LDMのバックプロパゲーションの必要性を排除し、線形時間で効率的に実行できる。各種ベンチマークを用いたLLaMA-V1/V2, Vicuna, OPTの大規模実験により, スパースLDMの性能向上におけるDSnoTの有効性が示された。例えば、DSnoTは、LLaMA-7Bと70%の間隔で26.79パープレキシティで最先端のワンダより優れている。本稿は, LLMのスパースを, 効率的なトレーニングのない方法で微調整し, 新しい会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。コードはhttps://github.com/zyxxmu/dsnotで入手できる。

関連論文リスト

Leave it to the Specialist: Repair Sparse LLMs with Sparse Fine-Tuning via Sparsity Evolution [37.437830302067326]
Sparsity Evolution Fine-Tuning (SEFT)は、疎大言語モデル(LLM)に特化して設計された新しい手法である。 SEFTは、微調整中に細粒化されたモデルのスパーストポロジーを動的に進化させ、プロセス全体にわたって全体空間を保存する。各種LLM実験の結果,SEFTは既存のベースラインに比べてメモリ効率と時間効率が優れており,性能が向上することが示された。
論文参考訳（メタデータ） (2025-05-29T22:17:43Z)
Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。 LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。 LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文参考訳（メタデータ） (2025-02-20T18:37:32Z)
Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-10-21T01:23:34Z)
Minor SFT loss for LLM fine-tune to increase performance and reduce model deviation [9.506166330956082]
最適化されたモデルと元のモデルとの差分を測定するためのSFTのトレーニング指標と、トレーニングの有効性を高めることができる損失関数MinorSFTを提案する。本稿では,DPO と MinorDPO の知見を得て,最適化モデルとオリジナルモデルとの差分を測定するための SFT のトレーニング指標と,トレーニングの有効性を高めることができる損失関数 MinorSFT を提案する。
論文参考訳（メタデータ） (2024-08-20T08:32:44Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文参考訳（メタデータ） (2024-05-25T04:55:27Z)
Automated Federated Pipeline for Parameter-Efficient Fine-Tuning of Large Language Models [21.864109456867784]
多くの下流タスクでは、プライベートデータを使用して大きな言語モデル(LLM)を微調整する必要がある。我々はFedPipeという自動フェデレーションパイプラインを提案し、最小のトレーニングコストでLLMを微調整する。大規模な実験では、FedPipeがモデルのトレーニングを高速化し、最先端のベンチマークよりも高い精度を達成することが示されている。
論文参考訳（メタデータ） (2024-04-09T16:50:30Z)
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文参考訳（メタデータ） (2024-03-22T08:57:07Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。