論文の概要: RWKV-edge: Deeply Compressed RWKV for Resource-Constrained Devices
- arxiv url: http://arxiv.org/abs/2412.10856v2
- Date: Thu, 19 Dec 2024 20:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:19:58.284796
- Title: RWKV-edge: Deeply Compressed RWKV for Resource-Constrained Devices
- Title(参考訳): RWKV-edge:資源制約デバイスのための深く圧縮されたRWKV
- Authors: Wonkyo Choe, Yangfeng Ji, Felix Xiaozhu Lin,
- Abstract要約: 本稿では,RWKVアーキテクチャに適した効率的な圧縮手法を提案する。
本手法ではRWKVモデルを4.95-3.8x圧縮し,2.95ppの精度で精度を低下させる。
- 参考スコア(独自算出の注目度): 15.969537866628517
- License:
- Abstract: To deploy LLMs on resource-contained platforms such as mobile robotics and wearables, non-transformers LLMs have achieved major breakthroughs. Recently, a novel RNN-based LLM family, Repentance Weighted Key Value (RWKV) models have shown promising results in text generation on resource-constrained devices thanks to their computational efficiency. However, these models remain too large to be deployed on embedded devices due to their high parameter count. In this paper, we propose an efficient suite of compression techniques, tailored to the RWKV architecture. These techniques include low-rank approximation, sparsity predictors, and clustering head, designed to align with the model size. Our methods compress the RWKV models by 4.95--3.8x with only 2.95pp loss in accuracy.
- Abstract(参考訳): LLMをモバイルロボティクスやウェアラブルなどのリソースを含むプラットフォームにデプロイするために、非トランスフォーマーLSMは大きなブレークスルーを達成した。
近年,RNNをベースとした新たなLLMファミリーであるRepentance Weighted Key Value (RWKV)モデルが,リソース制約されたデバイス上でのテキスト生成において,その計算効率により有望な結果を示している。
しかし、これらのモデルは高パラメータ数のため、組み込みデバイスにデプロイするには大きすぎるままである。
本稿では,RWKVアーキテクチャに適した効率的な圧縮手法を提案する。
これらの技術には、低ランク近似、スパーシティ予測器、モデルサイズに合わせて設計されたクラスタリングヘッドが含まれる。
提案手法では,RWKVモデルを4.95~3.8倍圧縮し,精度2.95ppの損失しか得られなかった。
関連論文リスト
- Low Resource Video Super-resolution using Memory and Residual Deformable Convolutions [3.018928786249079]
トランスフォーマーベースのビデオスーパーレゾリューション(VSR)モデルは近年、新しいベンチマークを設定しているが、その相当な計算要求により、リソースに制約のあるデバイスへの展開には適さないものが多い。
本稿では,VSRのための軽量・パラメータ効率の深い残留変形可能な畳み込みネットワークを提案する。
パラメータはわずか230万であり、REDS4データセット上での最先端のSSIMは0.9175である。
論文 参考訳(メタデータ) (2025-02-03T20:46:15Z) - FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [79.56709262189953]
EoRAは、圧縮されたLLaMA2/3モデルの様々なタスクにおけるエラーを補償する従来の手法より一貫して優れている。
EoRAは、圧縮エラーを補うスケーラブルでトレーニング不要なソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。
提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文 参考訳(メタデータ) (2024-06-11T08:37:33Z) - LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models [27.795088366122297]
潜在拡散モデル(LDM)のための新しいオートエンコーダ設計である LiteVAE を導入する。
LiteVAEは2次元離散ウェーブレット変換を使用して、標準変分オートエンコーダ(VAE)よりもスケーラビリティと計算効率を向上させる。
論文 参考訳(メタデータ) (2024-05-23T12:06:00Z) - SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model Compression [14.818355326032538]
大規模言語モデル(LLM)のための新しいSVDベースの圧縮手法であるSVD-LLMを提案する。
SVD-LLMは、特異値と圧縮損失の直接マッピングを保証するために、トラクション対応のデータホワイトニング戦略を組み込んでいる。
以上の結果から, SVD-LLMは最先端技術, 特に高モデル圧縮比よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-12T07:31:18Z) - Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like
Architectures [99.20299078655376]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。
我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。
評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文 参考訳(メタデータ) (2024-03-04T18:46:20Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。