Fugu-MT 論文翻訳(概要): Enabling Lightweight Fine-tuning for Pre-trained Language Model Compression based on Matrix Product Operators

論文の概要: Enabling Lightweight Fine-tuning for Pre-trained Language Model Compression based on Matrix Product Operators

arxiv url: http://arxiv.org/abs/2106.02205v1
Date: Fri, 4 Jun 2021 01:50:15 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-08 07:40:22.054953
Title: Enabling Lightweight Fine-tuning for Pre-trained Language Model Compression based on Matrix Product Operators
Title（参考訳）: 行列積演算子に基づく事前学習言語モデル圧縮のための軽量微調整法
Authors: Peiyu Liu, Ze-Feng Gao, Wayne Xin Zhao, Z.Y. Xie, Zhong-Yi Lu, Ji-Rong Wen
Abstract要約: 本稿では,量子多体物理学の行列積演算子(MPO)に基づく,新しい事前学習言語モデル(PLM)圧縮手法を提案する。提案手法は, より軽量なネットワークを導出し, 微調整を行うパラメータを大幅に削減する, 汎用的な手法でオリジナルのPLMや圧縮PLMに適用することができる。
参考スコア（独自算出の注目度）: 31.461762905053426
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: This paper presents a novel pre-trained language models (PLM) compression approach based on the matrix product operator (short as MPO) from quantum many-body physics. It can decompose an original matrix into central tensors (containing the core information) and auxiliary tensors (with only a small proportion of parameters). With the decomposed MPO structure, we propose a novel fine-tuning strategy by only updating the parameters from the auxiliary tensors, and design an optimization algorithm for MPO-based approximation over stacked network architectures. Our approach can be applied to the original or the compressed PLMs in a general way, which derives a lighter network and significantly reduces the parameters to be fine-tuned. Extensive experiments have demonstrated the effectiveness of the proposed approach in model compression, especially the reduction in finetuning parameters (91% reduction on average).
Abstract（参考訳）: 本稿では,量子多体物理学の行列積演算子(MPO)に基づく,新しい事前学習言語モデル(PLM)圧縮手法を提案する。元の行列を中心テンソル(コア情報を含む)と補助テンソル(パラメータのごく一部しか持たない)に分解することができる。分解されたMPO構造を用いて、補助テンソルからのパラメータのみを更新し、スタック化されたネットワークアーキテクチャ上でのMPOに基づく近似のための最適化アルゴリズムを設計する。提案手法は, より軽量なネットワークを導出し, 微調整を行うパラメータを大幅に削減する, 汎用的な手法でオリジナルのPLMや圧縮PLMに適用することができる。モデル圧縮における提案手法の有効性,特に微調整パラメータの低減(平均91%の削減)について実験を行った。

関連論文リスト

Compressed BC-LISTA via Low-Rank Convolutional Decomposition [47.15001096567547]
圧縮前方・後方演算子を用いたマルチチャネルイメージングのためのスパース信号回復法(SSR)について検討した。本稿では,低ランク畳み込みネットワーク(CNN)分解に基づくCBC(Compressed Block-Convolutional)測定モデルを提案する。
論文参考訳（メタデータ） (2026-01-30T16:33:51Z)
tCURLoRA: Tensor CUR Decomposition Based Low-Rank Parameter Adaptation and Its Application in Medical Image Segmentation [1.3281936946796913]
伝達学習は、事前訓練されたモデルからの知識を活用することで、目標タスクの性能を大幅に向上させた。ディープニューラルネットワークのスケールアップに伴って、フル微調整によって、計算とストレージの大幅な課題がもたらされる。テンソルCUR分解に基づく新しい微調整法であるtCURLoRAを提案する。
論文参考訳（メタデータ） (2025-01-04T08:25:32Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation [12.07880147193174]
モデルパラメータ内のデータと圧縮可能な力学の固有な低次元構造を利用することで、計算負担を伴わずにパラメータ化の利点を享受できることが示される。提案手法は,低ランク行列と微調整言語モデルに対して有効であることを示す。
論文参考訳（メタデータ） (2024-06-06T14:29:49Z)
Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文参考訳（メタデータ） (2024-02-26T05:51:47Z)
Efficient Compression of Overparameterized Deep Models through Low-Dimensional Learning Dynamics [10.673414267895355]
本稿ではパラメータ化モデルを用いた新しい圧縮手法を提案する。本アルゴリズムは, 一般化を損なうことなく, トレーニング効率を2倍以上に向上させる。
論文参考訳（メタデータ） (2023-11-08T23:57:03Z)
Low-Rank Prune-And-Factorize for Language Model Compression [18.088550230146247]
マトリックスの分解は、中程度から高い圧縮速度で良好な性能を維持することができない。スパシティ対応SVDとミックスランクファインチューニングの2つの手法を提案する。
論文参考訳（メタデータ） (2023-06-25T07:38:43Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Numerical Optimizations for Weighted Low-rank Estimation on Language Model [73.12941276331316]
Singular value decomposition (SVD) は、より小さい行列でターゲット行列を近似する最も一般的な圧縮手法の1つである。標準SVDは行列内のパラメータを同じ重要性で扱うが、これは単純だが非現実的な仮定である。本手法は,ニューラルベース言語モデルにおいて,現在のSOTA法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-02T00:58:02Z)
Spectral Tensor Train Parameterization of Deep Learning Layers [136.4761580842396]
重み行列の低ランクパラメータ化をDeep Learningコンテキストに埋め込まれたスペクトル特性を用いて検討する。分類設定におけるニューラルネットワーク圧縮の効果と,生成的対角トレーニング設定における圧縮および安定性トレーニングの改善について述べる。
論文参考訳（メタデータ） (2021-03-07T00:15:44Z)
Covert Model Poisoning Against Federated Learning: Algorithm Design and Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文参考訳（メタデータ） (2021-01-28T03:28:18Z)
Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文参考訳（メタデータ） (2020-10-01T18:14:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。