論文の概要: PocketLLM: Ultimate Compression of Large Language Models via Meta Networks
- arxiv url: http://arxiv.org/abs/2511.17637v1
- Date: Wed, 19 Nov 2025 08:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.31844
- Title: PocketLLM: Ultimate Compression of Large Language Models via Meta Networks
- Title(参考訳): PocketLLM: メタネットワークによる大規模言語モデルの究極の圧縮
- Authors: Ye Tian, Chengcheng Wang, Jing Han, Yehui Tang, Kai Han,
- Abstract要約: 本稿では,大規模言語モデルを圧縮する新しい手法であるPocketLLMを紹介する。
LLMの重みを離散潜在ベクトルに投影する単純なエンコーダネットワークを提案する。
軽量デコーダネットワークを使用して、コードブックの代表ベクトルを元の重み空間にマッピングする。
- 参考スコア(独自算出の注目度): 43.829543128192455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) continue to grow in size, storing and transmitting them on edge devices becomes increasingly challenging. Traditional methods like quantization and pruning struggle to achieve extreme compression of LLMs without sacrificing accuracy. In this paper, we introduce PocketLLM, a novel approach to compress LLMs in a latent space via meta-networks. A simple encoder network is proposed to project the weights of LLMs into discrete latent vectors, which are then represented using a compact codebook. A lightweight decoder network is employed to map the codebook's representative vectors back to the original weight space. This method allows for significant compression of the large weights in LLMs, consisting solely of a small decoder, a concise codebook, and an index. Extensive experiments show that PocketLLM achieves superior performance even at significantly high compression ratios, e.g., compressing Llama 2-7B by 10x with a negligible drop in accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)のサイズが拡大を続けるにつれ、エッジデバイスにそれらを保存し、送信することはますます困難になっている。
量子化やプルーニングのような従来の手法は、精度を犠牲にすることなくLLMの極端な圧縮を実現するのに苦労した。
本稿では,メタネットワークを用いたLLM圧縮手法であるPocketLLMを紹介する。
LLMの重みを離散潜在ベクトルに投影する単純なエンコーダネットワークを提案し、それをコンパクトなコードブックで表現する。
軽量デコーダネットワークを使用して、コードブックの代表ベクトルを元の重み空間にマッピングする。
この方法は、小さなデコーダ、簡潔なコードブック、インデックスのみからなるLLMにおける大きな重みの大幅な圧縮を可能にする。
広汎な実験により,PocketLLMはLlama 2-7Bを10倍圧縮して精度を低下させるなど,圧縮比が著しく高くても優れた性能を発揮することが示された。
関連論文リスト
- Huff-LLM: End-to-End Lossless Compression for Efficient LLM Inference [19.59857352852377]
大規模言語モデル(LLM)は、急速にサイズを拡大し続けている。
これにより、小さなエッジデバイス上でのLLMの動作の困難さが増した。
本稿では,LLM重みを圧縮形式で格納するHuff-LLMを提案する。
論文 参考訳(メタデータ) (2025-02-02T21:23:42Z) - Basis Sharing: Cross-Layer Parameter Sharing for Large Language Model Compression [5.206085750261924]
大規模言語モデル(LLM)は、推論においてかなりの量のメモリストレージを必要とする。
本稿では,特異値分解を伴う異なる層間のパラメータ共有について検討する。
総合的な実験により、Basis Sharingは最先端のSVDベースの圧縮アプローチより優れていることが示された。
論文 参考訳(メタデータ) (2024-10-02T14:30:02Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - eDKM: An Efficient and Accurate Train-time Weight Clustering for Large
Language Models [19.502740996431452]
微分可能なKMeans Clustering(DKM)は、圧縮比と精度回帰の間の最先端のトレードオフを示している。
メモリ効率のよいDKM実装であるeDKMを提案し,DKMのメモリフットプリントを桁違いに削減する。
論文 参考訳(メタデータ) (2023-09-02T15:16:35Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。