論文の概要: Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs
- arxiv url: http://arxiv.org/abs/2310.08915v3
- Date: Mon, 26 Feb 2024 02:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 21:55:13.183825
- Title: Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs
- Title(参考訳): 動的スパースなしトレーニング:スパースllmのトレーニングフリー微調整
- Authors: Yuxin Zhang, Lirui Zhao, Mingbao Lin, Yunyun Sun, Yiwu Yao, Xingjia
Han, Jared Tanner, Shiwei Liu, Rongrong Ji
- Abstract要約: そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
- 参考スコア(独自算出の注目度): 67.38165028487242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ever-increasing large language models (LLMs), though opening a potential
path for the upcoming artificial general intelligence, sadly drops a daunting
obstacle on the way towards their on-device deployment. As one of the most
well-established pre-LLMs approaches in reducing model complexity, network
pruning appears to lag behind in the era of LLMs, due mostly to its costly
fine-tuning (or re-training) necessity under the massive volumes of model
parameter and training data. To close this industry-academia gap, we introduce
Dynamic Sparse No Training (DSnoT), a training-free fine-tuning approach that
slightly updates sparse LLMs without the expensive backpropagation and any
weight updates. Inspired by the Dynamic Sparse Training, DSnoT minimizes the
reconstruction error between the dense and sparse LLMs, in the fashion of
performing iterative weight pruning-and-growing on top of sparse LLMs. To
accomplish this purpose, DSnoT particularly takes into account the anticipated
reduction in reconstruction error for pruning and growing, as well as the
variance w.r.t. different input data for growing each weight. This practice can
be executed efficiently in linear time since its obviates the need of
backpropagation for fine-tuning LLMs. Extensive experiments on LLaMA-V1/V2,
Vicuna, and OPT across various benchmarks demonstrate the effectiveness of
DSnoT in enhancing the performance of sparse LLMs, especially at high sparsity
levels. For instance, DSnoT is able to outperform the state-of-the-art Wanda by
26.79 perplexity at 70% sparsity with LLaMA-7B. Our paper offers fresh insights
into how to fine-tune sparse LLMs in an efficient training-free manner and open
new venues to scale the great potential of sparsity to LLMs. Codes are
available at https://github.com/zyxxmu/DSnoT.
- Abstract(参考訳): 今後も増え続ける大型言語モデル(LLM)は、今後の人工知能(AI)への潜在的な道を開く一方で、デバイス上での展開に向けて途方もない障害を乗り越えている。
モデル複雑性の低減において、LLMが確立したアプローチの1つとして、ネットワークプルーニングは、大量のモデルパラメータとトレーニングデータの下で、コストのかかる微調整(または再訓練)の必要性のため、LLMの時代に遅れているように見える。
この業界と学界のギャップを埋めるために、私たちは、高価なバックプロパゲーションやウェイトアップデートなしに、わずかにスパースLSMを更新するトレーニング不要の微調整アプローチであるDynamic Sparse No Training (DSnoT)を導入しました。
Dynamic Sparse TrainingにインスパイアされたDSnoTは、Sparse LLM上で反復的に重量を刈り上げ、成長させる方法で、高密度LLMとスパースLLMの再構成誤差を最小限に抑える。
この目的を達成するため、DSnoTは特に、各重みを成長させるための差分w.r.t.異なる入力データと同様に、刈り込みおよび成長のための復元誤差の期待値の低減を考慮に入れている。
このプラクティスは、微調整LDMのバックプロパゲーションの必要性を排除し、線形時間で効率的に実行できる。
各種ベンチマークを用いたLLaMA-V1/V2, Vicuna, OPTの大規模実験により, スパースLDMの性能向上におけるDSnoTの有効性が示された。
例えば、DSnoTは、LLaMA-7Bと70%の間隔で26.79パープレキシティで最先端のワンダより優れている。
本稿は, LLMのスパースを, 効率的なトレーニングのない方法で微調整し, 新しい会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
コードはhttps://github.com/zyxxmu/dsnotで入手できる。
関連論文リスト
- BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Tiny Titans: Can Smaller Large Language Models Punch Above Their Weight
in the Real World for Meeting Summarization? [8.234063663233595]
大規模言語モデル(LLM)は、タスク固有のデータセットを明示的に微調整することなく、幅広いタスクを解決できる印象的な機能を示している。
本研究では,LLM の小型化が,LLM の現実的利用に伴う大きなコストに対処するために,比較的大型の LLMs2 の代替となるかを検討する。
論文 参考訳(メタデータ) (2024-02-01T18:31:34Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。
我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。
4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文 参考訳(メタデータ) (2023-05-22T22:07:50Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。