論文の概要: A Comprehensive Survey of Compression Algorithms for Language Models
- arxiv url: http://arxiv.org/abs/2401.15347v1
- Date: Sat, 27 Jan 2024 08:38:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 18:36:18.598033
- Title: A Comprehensive Survey of Compression Algorithms for Language Models
- Title(参考訳): 言語モデルの圧縮アルゴリズムに関する包括的調査
- Authors: Seungcheol Park, Jaehyeon Choi, Sojin Lee, and U Kang
- Abstract要約: 我々は,プルーニング,量子化,知識蒸留,低ランク近似,パラメータ共有,効率的なアーキテクチャ設計など,多様な圧縮アルゴリズムを調査し,要約する。
本稿では,圧縮アルゴリズムの各カテゴリの価値と,大規模言語モデルの出現により大きな影響を与える低コスト圧縮アルゴリズムの望ましい特性について論じる。
- 参考スコア(独自算出の注目度): 10.21587168771851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we compress language models without sacrificing accuracy? The number
of compression algorithms for language models is rapidly growing to benefit
from remarkable advances of recent language models without side effects due to
the gigantic size of language models, such as increased carbon emissions and
expensive maintenance fees. While numerous compression algorithms have shown
remarkable progress in compressing language models, it ironically becomes
challenging to capture emerging trends and identify the fundamental concepts
underlying them due to the excessive number of algorithms. In this paper, we
survey and summarize diverse compression algorithms including pruning,
quantization, knowledge distillation, low-rank approximation, parameter
sharing, and efficient architecture design. We not only summarize the overall
trend of diverse compression algorithms but also select representative
algorithms and provide in-depth analyses of them. We discuss the value of each
category of compression algorithms, and the desired properties of low-cost
compression algorithms which have a significant impact due to the emergence of
large language models. Finally, we introduce promising future research topics
based on our survey results.
- Abstract(参考訳): 正確性を犠牲にせずに言語モデルを圧縮できるのか?
言語モデルの圧縮アルゴリズムの数は急速に増加しており、二酸化炭素排出量の増加や高価なメンテナンス費用など、言語モデルの巨大サイズによる副作用のない最近の言語モデルの顕著な進歩の恩恵を受けている。
多くの圧縮アルゴリズムは、言語モデルを圧縮する際、顕著な進歩を見せているが、皮肉なことに、新しいトレンドを捉え、アルゴリズムの過剰な数のために基礎となる概念を特定することは困難になっている。
本稿では,プルーニング,量子化,知識蒸留,低ランク近似,パラメータ共有,効率的なアーキテクチャ設計など,多様な圧縮アルゴリズムを調査し,要約する。
多様な圧縮アルゴリズムの全体的な傾向を要約するだけでなく、代表アルゴリズムを選択し、それらを詳細に分析する。
本稿では,圧縮アルゴリズムの各カテゴリの値と,大規模言語モデルの出現により大きな影響を与える低コスト圧縮アルゴリズムの所望の特性について述べる。
最後に,調査結果に基づく将来的な研究課題を紹介する。
関連論文リスト
- Ranking LLMs by compression [13.801767671391604]
圧縮の先駆けとして5つの大きな言語モデルを使用し、課題のある自然言語処理タスクのパフォーマンスを比較します。
実験の結果,圧縮比とモデル性能は正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2024-06-20T10:23:38Z) - Unpacking Tokenization: Evaluating Text Compression and its Correlation with Model Performance [34.641079276516926]
我々は,0-gram言語モデリングとみなす圧縮の理論的重要性を論じる。
事前学習した言語モデルの下流での成功に対する圧縮の実証的重要性を示す。
本稿では,トークン化器の圧縮とモデル下流性能の相関関係を示す。
論文 参考訳(メタデータ) (2024-03-10T17:02:53Z) - Model Compression and Efficient Inference for Large Language Models: A
Survey [20.199282252344396]
大きな言語モデルは、より小さなモデルに比べて2つの顕著な特徴を持つ。
大きなモデルの最も顕著な側面は、モデルの微調整やトレーニングに関連する非常に高いコストである。
大規模モデルは、1つのタスクのパフォーマンスよりも、汎用性と一般化を強調する。
論文 参考訳(メタデータ) (2024-02-15T06:58:30Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - LoSparse: Structured Compression of Large Language Models based on
Low-Rank and Sparse Approximation [63.04361850630079]
トランスフォーマーモデルは、様々な自然言語タスクにおいて顕著な成果を上げてきたが、しばしば禁止的に大きい。
低ランク行列とスパース行列の和で重み行列を近似する新しいモデル圧縮手法であるLoSparseを提案する。
既存の圧縮手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-06-20T01:16:11Z) - Revisiting Offline Compression: Going Beyond Factorization-based Methods
for Transformer Language Models [7.542276054279341]
トランスフォーマー言語モデルは、多くの自然言語処理(NLP)タスクにおいて卓越した結果を達成する。
その巨大なサイズは、しばしばメモリ制限されたデバイスを非現実的にし、実践者はそれをより小さなネットワークに圧縮する必要がある。
本稿では,圧縮モデルをさらに微調整する必要のないオフライン圧縮手法について検討する。
論文 参考訳(メタデータ) (2023-02-08T13:36:06Z) - Intriguing Properties of Compression on Multilingual Models [17.06142742945346]
微調整中における多言語事前学習言語モデルの分散化の影響を特徴づける枠組みを提案する。
このフレームワークを40言語にわたってmBERTという名前のエンティティ認識モデルに適用すると、圧縮はいくつかの興味深い、以前は未知の一般化特性を示す。
論文 参考訳(メタデータ) (2022-11-04T20:28:01Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。