論文の概要: Numerical Optimizations for Weighted Low-rank Estimation on Language
Model
- arxiv url: http://arxiv.org/abs/2211.09718v1
- Date: Wed, 2 Nov 2022 00:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 13:42:29.742240
- Title: Numerical Optimizations for Weighted Low-rank Estimation on Language
Model
- Title(参考訳): 言語モデルに基づく重み付き低ランク推定の数値最適化
- Authors: Ting Hua, Yen-Chang Hsu, Felicity Wang, Qian Lou, Yilin Shen, Hongxia
Jin
- Abstract要約: Singular value decomposition (SVD) は、より小さい行列でターゲット行列を近似する最も一般的な圧縮手法の1つである。
標準SVDは行列内のパラメータを同じ重要性で扱うが、これは単純だが非現実的な仮定である。
本手法は,ニューラルベース言語モデルにおいて,現在のSOTA法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 73.12941276331316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Singular value decomposition (SVD) is one of the most popular compression
methods that approximate a target matrix with smaller matrices. However,
standard SVD treats the parameters within the matrix with equal importance,
which is a simple but unrealistic assumption. The parameters of a trained
neural network model may affect task performance unevenly, which suggests
non-equal importance among the parameters. Compared to SVD, the decomposition
method aware of parameter importance is the more practical choice in real
cases. Unlike standard SVD, weighted value decomposition is a non-convex
optimization problem that lacks a closed-form solution. We systematically
investigated multiple optimization strategies to tackle the problem and
examined our method by compressing Transformer-based language models. Further,
we designed a metric to predict when the SVD may introduce a significant
performance drop, for which our method can be a rescue strategy. The extensive
evaluations demonstrate that our method can perform better than current SOTA
methods in compressing Transformer-based language models.
- Abstract(参考訳): 特異値分解(SVD)は、ターゲット行列を小さい行列で近似する最も一般的な圧縮手法の1つである。
しかし、標準SVDは行列内のパラメータを同じ重要性で扱い、これは単純だが非現実的な仮定である。
トレーニングされたニューラルネットワークモデルのパラメータは、タスクのパフォーマンスに不均一に影響を及ぼす可能性がある。
SVDと比較すると,パラメータの重要性を意識した分解法の方が実例ではより実践的な選択である。
標準SVDとは異なり、重み付け値分解は閉形式解を持たない非凸最適化問題である。
この問題に対処する複数の最適化手法を体系的に検討し,トランスフォーマーに基づく言語モデルを圧縮して検討した。
さらに,SVDがいつ大きな性能低下をもたらすかを予測する指標を設計し,その方法が救難戦略となるようにした。
本手法はトランスフォーマーに基づく言語モデルの圧縮において,現在のSOTA法よりも優れた性能を示す。
関連論文リスト
- Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Partial Least Square Regression via Three-factor SVD-type Manifold
Optimization for EEG Decoding [4.0204191666595595]
双グラスマン多様体 (PLSRbiGr) の最適化による部分最小二乗回帰(PLSR)の解法を提案する。
qlPLSRbiGrは、運動画像(MI)における脳波信号を復号する様々な実験と、定常視覚誘発電位(SSVEP)タスクで検証される。
論文 参考訳(メタデータ) (2022-08-09T11:57:02Z) - Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-30T21:57:07Z) - Large-Scale System Identification Using a Randomized SVD [4.567810220723372]
近似行列因数分解は、実現アルゴリズムにおける標準SVDを置き換えることができることを示す。
これはモデルを作ることができる唯一の方法です。
論文 参考訳(メタデータ) (2021-09-06T19:25:15Z) - Conservative Objective Models for Effective Offline Model-Based
Optimization [78.19085445065845]
計算設計の問題は、合成生物学からコンピュータアーキテクチャまで、様々な場面で発生している。
本研究では,分布外入力に対する接地的目標の実際の値を低くする目的関数のモデルを学習する手法を提案する。
COMは、様々なMBO問題に対して、既存のメソッドの実装と性能の面では単純である。
論文 参考訳(メタデータ) (2021-07-14T17:55:28Z) - Direction is what you need: Improving Word Embedding Compression in
Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。
提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-15T14:28:00Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z) - Implicit differentiation of Lasso-type models for hyperparameter
optimization [82.73138686390514]
ラッソ型問題に適した行列逆転のない効率的な暗黙微分アルゴリズムを提案する。
提案手法は,解の空間性を利用して高次元データにスケールする。
論文 参考訳(メタデータ) (2020-02-20T18:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。