論文の概要: Resource-Efficient Speech Quality Prediction through Quantization Aware Training and Binary Activation Maps
- arxiv url: http://arxiv.org/abs/2407.04578v1
- Date: Fri, 5 Jul 2024 15:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 13:01:09.263138
- Title: Resource-Efficient Speech Quality Prediction through Quantization Aware Training and Binary Activation Maps
- Title(参考訳): 量子化学習とバイナリアクティベーションマップによる資源効率の良い音声品質予測
- Authors: Mattias Nilsson, Riccardo Miccini, Clément Laroche, Tobias Piechowiak, Friedemann Zenke,
- Abstract要約: DNSMOSに基づく畳み込みアーキテクチャにおける音声品質予測のためのバイナリアクティベーションマップ(BAM)について検討する。
本稿では,量子化を意識した2値アクティベーションモデルとベースラインモデルの予測性能が一致することを示す。
提案手法は,ほぼすべてのドット積を和で置き換えつつ,推論中に25倍のメモリ削減を実現する。
- 参考スコア(独自算出の注目度): 4.002057316863807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As speech processing systems in mobile and edge devices become more commonplace, the demand for unintrusive speech quality monitoring increases. Deep learning methods provide high-quality estimates of objective and subjective speech quality metrics. However, their significant computational requirements are often prohibitive on resource-constrained devices. To address this issue, we investigated binary activation maps (BAMs) for speech quality prediction on a convolutional architecture based on DNSMOS. We show that the binary activation model with quantization aware training matches the predictive performance of the baseline model. It further allows using other compression techniques. Combined with 8-bit weight quantization, our approach results in a 25-fold memory reduction during inference, while replacing almost all dot products with summations. Our findings show a path toward substantial resource savings by supporting mixed-precision binary multiplication in hard- and software.
- Abstract(参考訳): モバイル端末やエッジ端末での音声処理が一般的になるにつれて、非侵襲的な音声品質監視の需要が高まっている。
深層学習法は,主観的および主観的音声品質指標の高品質な推定値を提供する。
しかしながら、それらの重要な計算要件は、しばしばリソース制約のあるデバイスでは禁止される。
この問題を解決するために,DNSMOSに基づく畳み込みアーキテクチャを用いた音声品質予測のためのバイナリアクティベーションマップ(BAM)について検討した。
本稿では,量子化を意識した2値アクティベーションモデルとベースラインモデルの予測性能が一致することを示す。
また、他の圧縮技術の使用も可能である。
8ビットの重み量子化と組み合わせることで,ほぼすべてのドット積を和で置き換えつつ,推論中に25倍のメモリ削減を実現した。
本研究は,ハードおよびソフトの混合精度バイナリ乗算をサポートすることにより,資源の大幅な削減に向けた道筋を示すものである。
関連論文リスト
- Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文 参考訳(メタデータ) (2024-02-26T06:01:38Z) - Enabling On-device Continual Learning with Binary Neural Networks [3.180732240499359]
連続学習(CL)とバイナリニューラルネットワーク(BNN)の分野における最近の進歩を組み合わせたソリューションを提案する。
具体的には,2値の潜在リプレイアクティベーションと,勾配計算に必要なビット数を大幅に削減する新しい量子化方式を利用する。
論文 参考訳(メタデータ) (2024-01-18T11:57:05Z) - Multimodal deep representation learning for quantum cross-platform
verification [60.01590250213637]
初期の量子コンピューティングの領域において重要な取り組みであるクロスプラットフォーム検証は、同一のアルゴリズムを実行する2つの不完全な量子デバイスとの類似性を特徴づけようと試みている。
本稿では,この課題におけるデータの形式化が2つの異なるモダリティを具現化する,革新的なマルチモーダル学習手法を提案する。
我々はこれらのモダリティから知識を独立して抽出するマルチモーダルニューラルネットワークを考案し、続いて融合操作により包括的データ表現を生成する。
論文 参考訳(メタデータ) (2023-11-07T04:35:03Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - RAND: Robustness Aware Norm Decay For Quantized Seq2seq Models [14.07649230604283]
モデル精度を向上させるために,量子化意識トレーニング(QAT)プロセスに対する低複雑性な変更を提案する。
精度が向上し、ノイズベースのQATの他の利点を活用できるようになる。
論文 参考訳(メタデータ) (2023-05-24T19:45:56Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Training Multi-bit Quantized and Binarized Networks with A Learnable
Symmetric Quantizer [1.9659095632676098]
リソース制約のあるデバイスやクラウドプラットフォームにそれらをデプロイするには、ディープニューラルネットワークの重み付けとアクティベーションの定量化が不可欠だ。
双対化は量子化の特別な場合であるが、この極端な場合はしばしばいくつかの訓練の困難をもたらす。
双対化の困難を克服するため,uniq と呼ばれる統一量子化フレームワークを開発した。
論文 参考訳(メタデータ) (2021-04-01T02:33:31Z) - Streaming Attention-Based Models with Augmented Memory for End-to-End
Speech Recognition [26.530909772863417]
コンボリューションを付加したアテンションベースのモジュールを用いた,エンドツーエンドのニューラルトランスデューサアーキテクチャ上に,コンパクトでストリーミングな音声認識システムを構築した。
提案システムは,ストリーミング機能を備えたエンドツーエンドモデルと,拡張メモリを用いたストリーミングアテンションベースモデルからのフットプリントを大幅に削減する。
LibriSpeechデータセットでは,テストクリーンで2.7%,他で5.8%の単語誤り率を実現している。
論文 参考訳(メタデータ) (2020-11-03T00:43:58Z) - Resource-Efficient Speech Mask Estimation for Multi-Channel Speech
Enhancement [15.361841669377776]
ディープニューラルネットワーク(DNN)に基づくマルチチャンネル音声強調のための資源効率の高い手法を提案する。
特に、低精度DNNを用いて、ノイズの多いマルチチャネルマイクロホン観測から音声マスクを推定する。
2重みの極端な場合と精度の低下により、実行時間とメモリフットプリントの大幅な削減が可能となる。
論文 参考訳(メタデータ) (2020-07-22T14:58:29Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。