Fugu-MT 論文翻訳(概要): How To Train Your (Compressed) Large Language Model

論文の概要: How To Train Your (Compressed) Large Language Model

arxiv url: http://arxiv.org/abs/2305.14864v2
Date: Sun, 19 Nov 2023 01:14:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-22 19:38:35.622810
Title: How To Train Your (Compressed) Large Language Model
Title（参考訳）: 圧縮された)大きな言語モデルをトレーニングする方法
Authors: Ananya Harsh Jha, Tom Sherborne, Evan Pete Walsh, Dirk Groeneveld, Emma Strubell, Iz Beltagy
Abstract要約: 大規模言語モデルのためのタスク非依存圧縮パイプラインを開発する。以上の結果から, 単純なレイヤワイドプルーニングに続き, 継続する言語モデルによる事前学習が, 既存の3つの最先端ベースラインを上回り, 性能が向上することが示された。典型的なタスク特化圧縮とは異なり、最も圧縮されたモデルは、スクラッチから訓練された同様のサイズのモデルよりも大幅に性能が劣る。
参考スコア（独自算出の注目度）: 29.29267133266529
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: With the increase in the size of large language models (LLMs), we need compression methods that can reduce the model size while preserving the generality and zero-shot promptability of the model. This goal is more ambitious than the typical compression setup, which reduces the model's size at the expense of specializing it to a specific end-task. To study this, we develop a task-agnostic compression pipeline with a large-scale evaluation comprising language modeling perplexity and 12 zero-shot end-tasks. Our results show that a simple layer-wise pruning followed by continued language model pretraining matches or outperforms three existing state-of-the-art baselines while being 1.5x more computationally efficient. However, unlike typical task-specialized compression, our best-compressed model significantly underperforms a similar-sized model trained from scratch. We posit the half-sized pretrained model as an upper bound for task-agnostic compression and call for future work to bridge this gap under a reasonable token budget. Our findings highlight the inadequacy of existing compression methods for LLMs and establish a requirement for new methods that preserve a model's generality and zero-shot promptability under compression. We release our code and evaluation setup to facilitate reproducibility and help iterate on method design.
Abstract（参考訳）: 大規模言語モデル (LLM) のサイズが大きくなると、モデルの汎用性とゼロショットのプロンプト性を保ちながら、モデルのサイズを縮小できる圧縮方法が必要である。このゴールは一般的な圧縮設定よりも野心的であり、特定のエンドタスクに特化するためにモデルのサイズを減らす。そこで本研究では,言語モデリングの複雑度と12のゼロショットエンドタスクを含む大規模評価を行うタスク非依存圧縮パイプラインを開発した。以上の結果から,単純な層毎の刈り取りと継続する言語モデルが,既存の3つの最先端ベースラインを上回って,計算効率が1.5倍向上していることが示された。しかし、典型的なタスク特化圧縮とは異なり、最良の圧縮モデルは、スクラッチから訓練された同様のサイズのモデルに著しく劣る。半大の事前訓練モデルをタスクに依存しない圧縮の上限とし、合理的なトークン予算の下でこのギャップを埋めるための今後の作業を求める。本研究は,既存のllm圧縮手法の欠如を浮き彫りにし,モデルの汎用性と圧縮時のゼロショットプロンサビリティを維持できる新しい方法の必要性を明らかにした。再現性の向上とメソッド設計の反復を支援するため、コードと評価のセットアップをリリースします。

関連論文リスト

LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。 ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文参考訳（メタデータ） (2025-02-03T18:40:58Z)
Progressive Binarization with Semi-Structured Pruning for LLMs [36.32239429974179]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な成功を収めた。彼らの高い計算量とメモリ要求は、リソース制約のあるデバイスへのデプロイに困難をもたらす。 LLM圧縮のための半構造化プルーニング(PBS$2$P)法によるプログレッシブバイナリ化を提案する。
論文参考訳（メタデータ） (2025-02-03T13:30:29Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
適応スパーストレーナー(AST)と呼ばれるリトレーニングによる半構造化スパースモデルのプルーニングパイプラインを提案する。 ASTは、モデルがトレーニングプロセスを通して適応的にマスクを選択することを可能にし、マスキング重みに減衰を施すことにより、密度の高いモデルをスパースモデルに変換する。本研究は,半構造化されたスパース言語モデルの実現可能性を示し,高度に圧縮されたモデルを実現するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-30T06:33:44Z)
In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文参考訳（メタデータ） (2024-06-19T15:14:55Z)
SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文参考訳（メタデータ） (2024-05-25T04:55:27Z)
Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [40.15915011575071]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。大型モデルの低ランク特性に関する実証的研究を行う。大規模言語モデルに適した低ランク圧縮手法を提案する。
論文参考訳（メタデータ） (2024-05-17T08:27:12Z)
MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric [57.3330687266266]
より小さな事前学習モデルを用いてCLIPモデルに等級に基づくプルーニングを適用すると、柔軟性が低下し、性能が低下することがわかった。 The Module-wise Pruning Error (MoPE) metric, we introduced a unified pruning framework for both pre-training and task-specific fine-tuning compression stage。
論文参考訳（メタデータ） (2024-03-12T17:24:26Z)
Rethinking Compression: Reduced Order Modelling of Latent Features in Large Language Models [9.91972450276408]
本稿では,Large Language Models (LLMs) のパラメトリックおよび実用的な圧縮に対して,低次モデリングに基づく革新的なアプローチを提案する。本手法は, 行列分解を利用したモデル圧縮の顕著な進歩を示し, 最先端の構造化プルーニング法よりも優れた有効性を示した。
論文参考訳（メタデータ） (2023-12-12T07:56:57Z)
Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文参考訳（メタデータ） (2022-03-21T02:11:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。