論文の概要: Saten: Sparse Augmented Tensor Networks for Post-Training Compression of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.14871v1
- Date: Tue, 20 May 2025 20:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.730825
- Title: Saten: Sparse Augmented Tensor Networks for Post-Training Compression of Large Language Models
- Title(参考訳): Saten: 大規模言語モデルの訓練後圧縮のためのスパーステンソルネットワーク
- Authors: Ryan Solgi, Kai Zhen, Rupak Vignesh Swaminathan, Nathan Susanj, Athanasios Mouchtaris, Siegfried Kunzmann, Zheng Zhang,
- Abstract要約: 微調整中の低ランクテンソル化大言語モデル(LLM)について検討し,その性能向上を目的とした疎拡張テンソルネットワーク(Saten)を提案する。
実験により,ソルテンはテンソル化言語モデルにおける精度と圧縮効率を両立させ,最先端性能を実現することを示した。
- 参考スコア(独自算出の注目度): 19.71961743429603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The efficient implementation of large language models (LLMs) is crucial for deployment on resource-constrained devices. Low-rank tensor compression techniques, such as tensor-train (TT) networks, have been widely studied for over-parameterized neural networks. However, their applications to compress pre-trained large language models (LLMs) for downstream tasks (post-training) remains challenging due to the high-rank nature of pre-trained LLMs and the lack of access to pretraining data. In this study, we investigate low-rank tensorized LLMs during fine-tuning and propose sparse augmented tensor networks (Saten) to enhance their performance. The proposed Saten framework enables full model compression. Experimental results demonstrate that Saten enhances both accuracy and compression efficiency in tensorized language models, achieving state-of-the-art performance.
- Abstract(参考訳): 大きな言語モデル(LLM)の効率的な実装は、リソース制約のあるデバイスへのデプロイに不可欠である。
テンソルトレイン(TT)ネットワークのような低ランクテンソル圧縮技術は、過パラメータ化されたニューラルネットワークに対して広く研究されている。
しかし,LLMの高度の性質と事前学習データへのアクセスの欠如により,下流タスク(ポストトレーニング)のための事前学習された大規模言語モデル(LLM)の圧縮への応用は依然として困難である。
本研究では,微調整中の低ランクテンソル化LDMについて検討し,その性能向上を目的としたスパーステンソルネットワーク(サテン)を提案する。
Satenフレームワークは完全なモデル圧縮を可能にする。
実験結果から, テンソル化言語モデルでは, 精度と圧縮効率が向上し, 最先端性能が達成された。
関連論文リスト
- CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks [1.5199992713356987]
本稿では、量子インスパイアされたネットワークを用いた革新的な圧縮手法であるCompactifAIを紹介する。
我々の手法は万能であり、他の圧縮技術で実装することができる。
ベンチマークとして、CompactifAIと量子化の組み合わせにより、LlaMA 7Bの93%のメモリサイズを削減できることを示す。
論文 参考訳(メタデータ) (2024-01-25T11:45:21Z) - Knowledge Translation: A New Pathway for Model Compression [22.106103818486144]
TextbfKnowledge textbfTranslation (KT)
翻訳のモデルは、より大きなモデルのパラメータを受け取り、圧縮されたパラメータを生成するように訓練される。
我々は、KTの包括的なフレームワークを提案し、制限されたトレーニングデータにもかかわらず、モデル性能を向上させるためのデータ拡張戦略を導入し、MNISTデータセット上でのKTの実現可能性の実証に成功した。
論文 参考訳(メタデータ) (2024-01-11T09:25:42Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:49:14Z) - STN: Scalable Tensorizing Networks via Structure-Aware Training and
Adaptive Compression [10.067082377396586]
本稿では,モデルサイズと分解構造を適応的に調整するスケーラビリティネットワーク(STN)を提案する。
STNは任意のネットワークアーキテクチャと互換性があり、他のテンソル化バージョンよりも高い圧縮性能と柔軟性を実現する。
論文 参考訳(メタデータ) (2022-05-30T15:50:48Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。