論文の概要: LLM Vocabulary Compression for Low-Compute Environments
- arxiv url: http://arxiv.org/abs/2411.06371v1
- Date: Sun, 10 Nov 2024 06:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:11:59.192484
- Title: LLM Vocabulary Compression for Low-Compute Environments
- Title(参考訳): 低音環境におけるLLM語彙圧縮
- Authors: Sreeram Vennam, Anish Joishy, Ponnurangam Kumaraguru,
- Abstract要約: 本稿では,言語モデルの最終線形層を圧縮し,メモリ使用量を最大3.4倍に削減する手法を提案する。
TinyStoriesデータセットの評価から,本手法はGPT-NeoとGPT2と同等に動作し,スループットを最大3倍向上することが示された。
- 参考スコア(独自算出の注目度): 6.666607410662342
- License:
- Abstract: We present a method to compress the final linear layer of language models, reducing memory usage by up to 3.4x without significant performance loss. By grouping tokens based on Byte Pair Encoding (BPE) merges, we prevent materialization of the memory-intensive logits tensor. Evaluations on the TinyStories dataset show that our method performs on par with GPT-Neo and GPT2 while significantly improving throughput by up to 3x, making it suitable for low-compute environments.
- Abstract(参考訳): 本稿では,言語モデルの最終線形層を圧縮し,メモリ使用量を最大3.4倍に削減する手法を提案する。
Byte Pair Encoding (BPE) をマージしたトークンをグループ化することにより、メモリ集約ロジットテンソルの物質化を防止する。
TinyStories データセットの評価から,本手法は GPT-Neo と GPT2 と同等に動作し,スループットを最大 3 倍向上し,低計算環境に適していることが示された。
関連論文リスト
- Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Accelerating Large Language Model Training with Hybrid GPU-based Compression [3.204387803072905]
MPIライブラリはメッセージサイズを大幅に削減し、相互接続帯域幅を活用することが証明されている。
分散大言語モデル(LLM)学習における圧縮支援型MPI集団の有効性について検討した。
論文 参考訳(メタデータ) (2024-09-04T04:05:30Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - CompGS: Efficient 3D Scene Representation via Compressed Gaussian Splatting [68.94594215660473]
Compressed Gaussian Splatting (CompGS) という,効率的な3次元シーン表現を提案する。
我々は少数のアンカープリミティブを予測に利用し、プリミティブの大多数を非常にコンパクトな残留形にカプセル化することができる。
実験の結果,提案手法は既存の手法よりも優れており,モデル精度とレンダリング品質を損なうことなく,3次元シーン表現のコンパクト性に優れていた。
論文 参考訳(メタデータ) (2024-04-15T04:50:39Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - Towards Robust Low-Resource Fine-Tuning with Multi-View Compressed
Representations [51.75960511842552]
事前訓練された言語モデル(PLM)の微調整は、低リソースのシナリオで過度に適合する傾向がある。
オーバーフィッティングを減らすために,PLMの隠れ表現を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T09:39:29Z) - Deep Implicit Volume Compression [33.81053554523246]
本稿では,3次元ボクセル格子に格納された切り離された符号付き距離場を圧縮する新しい手法について述べる。
我々の手法は、エンドツーエンドで訓練されたブロックベースのニューラルネットワークアーキテクチャに依存し、最先端の速度歪みトレードオフを実現する。
論文 参考訳(メタデータ) (2020-05-18T16:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。