論文の概要: A Model Compression Method with Matrix Product Operators for Speech
Enhancement
- arxiv url: http://arxiv.org/abs/2010.04950v1
- Date: Sat, 10 Oct 2020 08:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 23:37:51.327404
- Title: A Model Compression Method with Matrix Product Operators for Speech
Enhancement
- Title(参考訳): 音声強調のための行列積演算子を用いたモデル圧縮法
- Authors: Xingwei Sun, Ze-Feng Gao, Zhong-Yi Lu, Junfeng Li, Yonghong Yan
- Abstract要約: 本稿では,行列積演算子(MPO)に基づくモデル圧縮手法を提案する。
本稿では,特にクラウドフリーアプリケーションにおいて,音声強調のための効果的なモデル圧縮手法を提案する。
- 参考スコア(独自算出の注目度): 15.066942043773267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deep neural network (DNN) based speech enhancement approaches have
achieved promising performance. However, the number of parameters involved in
these methods is usually enormous for the real applications of speech
enhancement on the device with the limited resources. This seriously restricts
the applications. To deal with this issue, model compression techniques are
being widely studied. In this paper, we propose a model compression method
based on matrix product operators (MPO) to substantially reduce the number of
parameters in DNN models for speech enhancement. In this method, the weight
matrices in the linear transformations of neural network model are replaced by
the MPO decomposition format before training. In experiment, this process is
applied to the causal neural network models, such as the feedforward multilayer
perceptron (MLP) and long short-term memory (LSTM) models. Both MLP and LSTM
models with/without compression are then utilized to estimate the ideal ratio
mask for monaural speech enhancement. The experimental results show that our
proposed MPO-based method outperforms the widely-used pruning method for speech
enhancement under various compression rates, and further improvement can be
achieved with respect to low compression rates. Our proposal provides an
effective model compression method for speech enhancement, especially in
cloud-free application.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)に基づく音声強調アプローチは有望な性能を達成した。
しかし,これらの手法に係わるパラメータの数は,限られたリソースを持つデバイス上での音声強調の実際の応用にとって,非常に大きい。
これは応用を厳しく制限する。
この問題に対処するため、モデル圧縮技術は広く研究されている。
本稿では,音声強調のためのdnnモデルにおけるパラメータ数を実質的に削減するために,行列積演算子(mpo)に基づくモデル圧縮法を提案する。
本手法では,ニューラルネットワークモデルの線形変換における重み行列を,トレーニング前にMPO分解形式に置き換える。
実験では、このプロセスは、フィードフォワード多層パーセプトロン(MLP)や長短期記憶(LSTM)モデルのような因果神経モデルに適用される。
MLPモデルとLSTMモデルの両方の圧縮/非圧縮モデルを用いて、単調音声強調のための理想的な比マスクを推定する。
実験の結果,提案手法は様々な圧縮速度で音声強調のための広範に使われているプルーニング法よりも優れており,低圧縮率でさらなる改善が期待できることがわかった。
本稿では,特にクラウドフリーアプリケーションにおいて,音声強調のための効果的なモデル圧縮手法を提案する。
関連論文リスト
- Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models [0.0]
本稿では,Selective State Spaceモデルを用いたディープニューラルネットワークを用いた光学ダイナミックレンジ圧縮機のモデル化手法を提案する。
ネットワークを動的に調整するために、機能ワイドリニア変調とゲート付きリニアユニットを統合した洗練された技術が特徴である。
提案アーキテクチャは、ライブオーディオ処理において重要な低レイテンシおよびリアルタイムアプリケーションに適している。
論文 参考訳(メタデータ) (2024-08-22T17:03:08Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks [1.5199992713356987]
本稿では、量子インスパイアされたネットワークを用いた革新的な圧縮手法であるCompactifAIを紹介する。
我々の手法は万能であり、他の圧縮技術で実装することができる。
ベンチマークとして、CompactifAIと量子化の組み合わせにより、LlaMA 7Bの93%のメモリサイズを削減できることを示す。
論文 参考訳(メタデータ) (2024-01-25T11:45:21Z) - Rethinking Compression: Reduced Order Modelling of Latent Features in
Large Language Models [9.91972450276408]
本稿では,Large Language Models (LLMs) のパラメトリックおよび実用的な圧縮に対して,低次モデリングに基づく革新的なアプローチを提案する。
本手法は, 行列分解を利用したモデル圧縮の顕著な進歩を示し, 最先端の構造化プルーニング法よりも優れた有効性を示した。
論文 参考訳(メタデータ) (2023-12-12T07:56:57Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Exploring Effective Mask Sampling Modeling for Neural Image Compression [171.35596121939238]
既存のニューラルイメージ圧縮手法の多くは、空間的冗長性を排除するために、ハイパープライアモデルやコンテキストモデルからのサイド情報に依存している。
近年の自然言語処理と高次視覚のための自己教師付き学習手法におけるマスクサンプリングモデルに着想を得て,ニューラル画像圧縮のための新しい事前学習戦略を提案する。
提案手法は,最先端画像圧縮法と比較して計算複雑性の低い競合性能を実現する。
論文 参考訳(メタデータ) (2023-06-09T06:50:20Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - Enabling Lightweight Fine-tuning for Pre-trained Language Model
Compression based on Matrix Product Operators [31.461762905053426]
本稿では,量子多体物理学の行列積演算子(MPO)に基づく,新しい事前学習言語モデル(PLM)圧縮手法を提案する。
提案手法は, より軽量なネットワークを導出し, 微調整を行うパラメータを大幅に削減する, 汎用的な手法でオリジナルのPLMや圧縮PLMに適用することができる。
論文 参考訳(メタデータ) (2021-06-04T01:50:15Z) - Compressing LSTM Networks by Matrix Product Operators [7.395226141345625]
Long Short Term Memory(LSTM)モデルは、多くの最先端自然言語処理(NLP)と音声強調(SE)アルゴリズムの構築ブロックである。
ここでは、量子多体物理学における量子状態の局所的相関を記述するMPO分解を紹介する。
LSTMモデルを置き換えるために,行列積演算子(MPO)に基づくニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-22T11:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。