論文の概要: SEE: Sememe Entanglement Encoding for Transformer-bases Models Compression
- arxiv url: http://arxiv.org/abs/2412.12204v1
- Date: Sun, 15 Dec 2024 12:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:02:20.276246
- Title: SEE: Sememe Entanglement Encoding for Transformer-bases Models Compression
- Title(参考訳): SEE: Transformer-bases モデル圧縮のためのSememe Entanglement Encoding
- Authors: Jing Zhang, Shuzhen Sun, Peng Zhang, Guangxing Cao, Hui Gao, Xindian Ma, Nan Xu, Yuexian Hou,
- Abstract要約: トランスフォーマーベースの大規模言語モデルは画期的な能力を示すが、そのストレージと計算コストは高く、リソース制約のあるシナリオでの応用を制限している。
効率的なアプローチは、圧縮と性能のバランスを達成するために、効率的な専門家由来の知識構造を取り入れながら、冗長なモデルパラメータと計算コストを排除することである。
- 参考スコア(独自算出の注目度): 20.824040486029354
- License:
- Abstract: Transformer-based large language models exhibit groundbreaking capabilities, but their storage and computational costs are prohibitively high, limiting their application in resource-constrained scenarios. An effective approach is to eliminate redundant model parameters and computational costs while incorporating efficient expert-derived knowledge structures to achieve a balance between compression and performance. Therefore, we propose the \textit{Sememe Entanglement Encoding (SEE)} algorithm. Guided by expert prior knowledge, the model is compressed through the low-rank approximation idea. In Entanglement Embedding, basic semantic units such as sememes are represented as low-dimensional vectors, and then reconstructed into high-dimensional word embeddings through the combination of generalized quantum entanglement. We adapt the Sememe Entanglement Encoding algorithm to transformer-based models of different magnitudes. Experimental results indicate that our approach achieves stable performance while compressing model parameters and computational costs.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデルは画期的な能力を示すが、そのストレージと計算コストは極めて高く、リソース制約のあるシナリオでの利用を制限する。
効率的なアプローチは、圧縮と性能のバランスを達成するために、効率的な専門家由来の知識構造を取り入れながら、冗長なモデルパラメータと計算コストを排除することである。
そこで本研究では,<textit{Sememe Entanglement Encoding (SEE) アルゴリズムを提案する。
専門家の事前知識によって導かれ、モデルは低ランク近似のアイデアによって圧縮される。
エンタングルメント埋め込みでは、セメムのような基本的な意味単位は低次元ベクトルとして表現され、一般化された量子エンタングルメントの組み合わせによって高次元の単語埋め込みに再構成される。
我々は,異なる大きさのトランスフォーマーモデルに対して,Sememe Entanglement Encodingアルゴリズムを適用した。
実験結果から,モデルパラメータと計算コストを圧縮しながら,本手法が安定した性能を実現することが示唆された。
関連論文リスト
- Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。
具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。
提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T01:09:23Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Rethinking Compression: Reduced Order Modelling of Latent Features in
Large Language Models [9.91972450276408]
本稿では,Large Language Models (LLMs) のパラメトリックおよび実用的な圧縮に対して,低次モデリングに基づく革新的なアプローチを提案する。
本手法は, 行列分解を利用したモデル圧縮の顕著な進歩を示し, 最先端の構造化プルーニング法よりも優れた有効性を示した。
論文 参考訳(メタデータ) (2023-12-12T07:56:57Z) - Can pruning make Large Language Models more efficient? [0.0]
本稿では,トランスフォーマーアーキテクチャの最適化戦略として,ウェイトプルーニングの適用について検討する。
以上の結果から,モデルサイズの大幅な削減は,性能にかなりの妥協を伴わずに達成できることが示唆された。
この作業は、モデル効率とパフォーマンスのギャップを埋め、よりスケーラブルで環境に責任のあるディープラーニングアプリケーションへの道を開くことを目的としています。
論文 参考訳(メタデータ) (2023-10-06T20:28:32Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Revisiting Offline Compression: Going Beyond Factorization-based Methods
for Transformer Language Models [7.542276054279341]
トランスフォーマー言語モデルは、多くの自然言語処理(NLP)タスクにおいて卓越した結果を達成する。
その巨大なサイズは、しばしばメモリ制限されたデバイスを非現実的にし、実践者はそれをより小さなネットワークに圧縮する必要がある。
本稿では,圧縮モデルをさらに微調整する必要のないオフライン圧縮手法について検討する。
論文 参考訳(メタデータ) (2023-02-08T13:36:06Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Direction is what you need: Improving Word Embedding Compression in
Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。
提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-15T14:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。