論文の概要: CompactifAI: Extreme Compression of Large Language Models using
Quantum-Inspired Tensor Networks
- arxiv url: http://arxiv.org/abs/2401.14109v1
- Date: Thu, 25 Jan 2024 11:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 14:59:19.436842
- Title: CompactifAI: Extreme Compression of Large Language Models using
Quantum-Inspired Tensor Networks
- Title(参考訳): CompactifAI:量子インスパイアされたテンソルネットワークを用いた大規模言語モデルの極端圧縮
- Authors: Andrei Tomut, Saeed S. Jahromi, Sukhbinder Singh, Faysal Ishtiaq,
Cesar Mu\~noz, Prabdeep Singh Bajaj, Ali Elborady, Gianni del Bimbo, Mehrazin
Alizadeh, David Montero, Pablo Martin-Ramiro, Muhammad Ibrahim, Oussama
Tahiri Alaoui, John Malcolm, Samuel Mugel, Roman Orus
- Abstract要約: ChatGPTやLlaMAのような大規模言語モデル(LLM)は、生成人工知能(AI)において急速に進歩している。
その巨大なサイズは、巨大なトレーニングと推論コスト、相当なエネルギー需要、オンサイト展開の制限など、大きな課題を生んでいる。
プルーニング、蒸留、低ランク近似といった従来の圧縮手法は、ネットワーク内のニューロンの有効数を減らし、量子化は個々の重みの数値的精度を減らし、ニューロンの固定数を抑えながらモデルサイズを減らすことに重点を置いている。
本稿では、量子インスパイアされたネットワークを用いた革新的な圧縮手法であるCompactifAIを紹介する。
- 参考スコア(独自算出の注目度): 1.60270914221478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) such as ChatGPT and LlaMA are advancing rapidly
in generative Artificial Intelligence (AI), but their immense size poses
significant challenges, such as huge training and inference costs, substantial
energy demands, and limitations for on-site deployment. Traditional compression
methods such as pruning, distillation, and low-rank approximation focus on
reducing the effective number of neurons in the network, while quantization
focuses on reducing the numerical precision of individual weights to reduce the
model size while keeping the number of neurons fixed. While these compression
methods have been relatively successful in practice, there's no compelling
reason to believe that truncating the number of neurons is an optimal strategy.
In this context, this paper introduces CompactifAI, an innovative LLM
compression approach using quantum-inspired Tensor Networks that focuses on the
model's correlation space instead, allowing for a more controlled, refined and
interpretable model compression. Our method is versatile and can be implemented
with - or on top of - other compression techniques. As a benchmark, we
demonstrate that CompactifAI alone enables compression of the LlaMA-2 7B model
to only $30\%$ of its original size while recovering over $90\%$ of the
original accuracy after a brief distributed retraining.
- Abstract(参考訳): chatgptやllamaといった大規模言語モデル(llm)は、生成型ai(generative artificial intelligence:ai)において急速に進歩しているが、その巨大なサイズは、膨大なトレーニングと推論コスト、実質的なエネルギー需要、現場での展開の制限など、大きな課題をもたらす。
プルーニング、蒸留、低ランク近似といった従来の圧縮手法は、ネットワーク内のニューロンの有効数を減らし、量子化は個々の重みの数値的精度を減らし、ニューロンの固定数を抑えながらモデルサイズを減らすことに重点を置いている。
これらの圧縮手法は実際には比較的成功したが、ニューロンの数を遮断することが最適な戦略であると考えるには説得力のある理由はない。
本稿では、量子インスパイアされたテンソルネットワークを用いた革新的なLCM圧縮手法であるCompactifAIを紹介し、モデルの相関空間に着目し、より制御され、洗練され、解釈可能なモデル圧縮を実現する。
我々の手法は万能であり、他の圧縮技術で実装することができる。
ベンチマークとして, compactifai は llama-2 7b モデルの圧縮のみを元の大きさの 30-%$ に抑えつつ, 分散再トレーニング後の元の精度の 90-%$ 以上を回収できることを実証した。
関連論文リスト
- "Lossless" Compression of Deep Neural Networks: A High-dimensional
Neural Tangent Kernel Approach [49.744093838327615]
広帯域かつ完全接続型エンフディープニューラルネットに対する新しい圧縮手法を提案する。
提案手法の利点を支えるために, 合成データと実世界のデータの両方の実験を行った。
論文 参考訳(メタデータ) (2024-03-01T03:46:28Z) - Rethinking Compression: Reduced Order Modelling of Latent Features in
Large Language Models [9.91972450276408]
本稿では,Large Language Models (LLMs) のパラメトリックおよび実用的な圧縮に対して,低次モデリングに基づく革新的なアプローチを提案する。
本手法は, 行列分解を利用したモデル圧縮の顕著な進歩を示し, 最先端の構造化プルーニング法よりも優れた有効性を示した。
論文 参考訳(メタデータ) (2023-12-12T07:56:57Z) - A Theoretical Understanding of Neural Network Compression from Sparse
Linear Approximation [37.525277809849776]
モデル圧縮の目標は、同等のパフォーマンスを維持しながら、大きなニューラルネットワークのサイズを減らすことだ。
圧縮性を特徴付けるためにスペーサ感度$ell_q$-normを使用し、ネットワーク内の重みの柔らかいスペーサと圧縮度の関係を提供する。
また,ネットワーク上で各ニューロンを切断する適応アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-11T20:10:35Z) - OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。
OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。
本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:05:25Z) - Fast Conditional Network Compression Using Bayesian HyperNetworks [54.06346724244786]
条件付き圧縮問題を導入し、それに取り組むための高速なフレームワークを提案する。
問題は、トレーニング済みの大規模ニューラルネットワークをターゲットコンテキストに応じて最適な小さなネットワークに素早く圧縮する方法である。
提案手法は, ベースライン方式よりもはるかに小型の圧縮ネットワークを高速に生成できる。
論文 参考訳(メタデータ) (2022-05-13T00:28:35Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - Compression strategies and space-conscious representations for deep
neural networks [0.3670422696827526]
近年のディープラーニングの進歩により、いくつかの実世界のアプリケーションで最先端のパフォーマンスを備えた強力な畳み込みニューラルネットワーク(CNN)が利用可能になった。
CNNには数百万のパラメータがあり、リソース制限のあるプラットフォームではデプロイできない。
本稿では,重み付けと量子化によるCNNの損失圧縮の影響について検討する。
論文 参考訳(メタデータ) (2020-07-15T19:41:19Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。