論文の概要: One-pass Multiple Conformer and Foundation Speech Systems Compression and Quantization Using An All-in-one Neural Model
- arxiv url: http://arxiv.org/abs/2406.10160v1
- Date: Fri, 14 Jun 2024 16:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 12:56:41.013930
- Title: One-pass Multiple Conformer and Foundation Speech Systems Compression and Quantization Using An All-in-one Neural Model
- Title(参考訳): オールインワンニューラルモデルを用いたワンパス多重コンバータと基礎音声システム圧縮と量子化
- Authors: Zhaoqing Li, Haoning Xu, Tianzi Wang, Shoukang Hu, Zengrui Jin, Shujie Hu, Jiajun Deng, Mingyu Cui, Mengzhe Geng, Xunying Liu,
- Abstract要約: 本稿では,オールインワンニューラルモデルを用いた新しい1パス多重ASRシステムの共同圧縮と量子化手法を提案する。
単一の圧縮サイクルにより、異なる深さ、幅、量子化の精度設定を持つ複数のネスト系を、個別のターゲット系を個別に訓練・保存することなく同時に構築することができる。
実験では、単一のオールインワンモデルで圧縮された複数のASRシステムが、同じ複雑さを持つ個別に訓練されたシステムよりも、ワードエラー率(WER)が1.01%以上(6.98%)低いことを一貫して実証した。
- 参考スコア(独自算出の注目度): 42.60767244256665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel one-pass multiple ASR systems joint compression and quantization approach using an all-in-one neural model. A single compression cycle allows multiple nested systems with varying Encoder depths, widths, and quantization precision settings to be simultaneously constructed without the need to train and store individual target systems separately. Experiments consistently demonstrate the multiple ASR systems compressed in a single all-in-one model produced a word error rate (WER) comparable to, or lower by up to 1.01\% absolute (6.98\% relative) than individually trained systems of equal complexity. A 3.4x overall system compression and training time speed-up was achieved. Maximum model size compression ratios of 12.8x and 3.93x were obtained over the baseline Switchboard-300hr Conformer and LibriSpeech-100hr fine-tuned wav2vec2.0 models, respectively, incurring no statistically significant WER increase.
- Abstract(参考訳): 本稿では,オールインワンニューラルモデルを用いた新しい1パス多重ASRシステムの共同圧縮と量子化手法を提案する。
単一の圧縮サイクルにより、エンコーダの深さ、幅、量子化の精度の設定が異なる複数のネスト系が同時に構築でき、個々のターゲット系を個別に訓練・保存する必要がない。
実験では、単一のオールインワンモデルで圧縮された複数のASRシステムが、同じ複雑さを持つ個別に訓練されたシステムよりも、ワードエラー率(WER)が1.01\%以上(6.98\%)低いことを一貫して実証した。
システム全体の3.4倍の圧縮とトレーニングタイムの高速化が達成された。
ベースラインのSwitchboard-300hr Conformer と LibriSpeech-100hr の微調整wav2vec2.0 モデルにおいて、最大モデルサイズ圧縮比が 12.8x と 3.93x となり、統計学的に有意な WER の増加は得られなかった。
関連論文リスト
- Fast Feedforward 3D Gaussian Splatting Compression [55.149325473447384]
3D Gaussian Splatting (FCGS) は、1つのフィードフォワードパスで3DGS表現を高速に圧縮できる最適化フリーモデルである。
FCGSは圧縮比を20倍以上に向上し、高精細度を維持しながら、ほとんどのシーン毎のSOTA最適化手法を上回ります。
論文 参考訳(メタデータ) (2024-10-10T15:13:08Z) - Implicit Grid Convolution for Multi-Scale Image Super-Resolution [6.8410780175245165]
我々は,Implicit Grid Convolution(IGConv)と連携して,単一エンコーダを用いたマルチスケールフレームワークを提案する。
本フレームワークは,既存の固定スケール手法に匹敵する性能を達成しつつ,トレーニング予算を削減し,パラメータを3倍に抑える。
論文 参考訳(メタデータ) (2024-08-19T03:30:15Z) - ContextGS: Compact 3D Gaussian Splatting with Anchor Level Context Model [77.71796503321632]
我々は3DGS表現のアンカーレベルにコンテキストモデルを導入し,バニラ3DGSと比較して100倍以上のサイズの縮小を実現した。
我々の研究は3DGS表現のためのアンカーレベルのコンテキストモデルを開拓し、バニラ3DGSに比べて100倍以上、そして最新の最先端のScaffold-GSに比べて15倍の大幅なサイズ縮小を実現した。
論文 参考訳(メタデータ) (2024-05-31T09:23:39Z) - Enhancing Quantised End-to-End ASR Models via Personalisation [12.971231464928806]
量子化モデル(PQM)のための新しいパーソナライズ戦略を提案する。
PQMは 4-bit NormalFloat Quantisation (NF4) アプローチをモデル量子化とSATのローランク適応(LoRA)に用いている。
LibriSpeechとTED-Lium 3コーパスで実験が行われた。
論文 参考訳(メタデータ) (2023-09-17T02:35:21Z) - GraVAC: Adaptive Compression for Communication-Efficient Distributed DL
Training [0.0]
分散データ並列(DDP)トレーニングは、複数のデバイスがデータのサブセットをトレーニングし、アップデートを集約してグローバルに共有するモデルを生成することにより、アプリケーション全体のスループットを向上させる。
GraVACは、モデル進捗を評価し、圧縮に関連する情報損失を評価することで、トレーニング全体を通して圧縮係数を動的に調整するフレームワークである。
静的圧縮係数を使用するのとは対照的に、GraVACはResNet101、VGG16、LSTMのエンドツーエンドのトレーニング時間をそれぞれ4.32x、1.95x、6.67x削減する。
論文 参考訳(メタデータ) (2023-05-20T14:25:17Z) - Rotation Invariant Quantization for Model Compression [7.633595230914364]
トレーニング後のニューラルネットワーク(NN)モデル圧縮は、メモリリソースが限られているデバイスに大規模なメモリ消費モデルを展開するための魅力的なアプローチである。
NNモデル全体の量子化に単一パラメータを用いる回転不変量子化(RIQ)手法を提案する。
論文 参考訳(メタデータ) (2023-03-03T10:53:30Z) - Two-pass Decoding and Cross-adaptation Based System Combination of
End-to-end Conformer and Hybrid TDNN ASR Systems [61.90743116707422]
本稿では,ハイブリッドTDNNとConformer E2E ASRシステムのためのマルチパス再構成とクロスアダプティブに基づくシステムの組み合わせについて検討する。
NIST Hub5'00、Rt03、Rt02の評価データに対して、マルチパス再構成を用いて得られた最良の組み合わせシステムにより、統計的に有意な単語誤り率(WER)が2.5%から3.9%の絶対値(22.5%から28.9%の相対値)に低下した。
論文 参考訳(メタデータ) (2022-06-23T10:17:13Z) - OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。
OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。
本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:05:25Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。