論文の概要: Performance optimizations on deep noise suppression models
- arxiv url: http://arxiv.org/abs/2110.04378v1
- Date: Fri, 8 Oct 2021 21:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-17 07:33:44.367028
- Title: Performance optimizations on deep noise suppression models
- Title(参考訳): ディープノイズ抑圧モデルの性能最適化
- Authors: Jerry Chee, Sebastian Braun, Vishak Gopal, Ross Cutler
- Abstract要約: 本研究では,深部雑音抑圧(DNS)モデルの予測時間を高速化するアーキテクチャ探索として,等級構造プルーニングが果たす役割について検討する。
ベースライン上での最大7.25倍の推論高速化を実現し,スムーズなモデル性能向上を実現した。
- 参考スコア(独自算出の注目度): 15.316827344680165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the role of magnitude structured pruning as an architecture search
to speed up the inference time of a deep noise suppression (DNS) model. While
deep learning approaches have been remarkably successful in enhancing audio
quality, their increased complexity inhibits their deployment in real-time
applications. We achieve up to a 7.25X inference speedup over the baseline,
with a smooth model performance degradation. Ablation studies indicate that our
proposed network re-parameterization (i.e., size per layer) is the major driver
of the speedup, and that magnitude structured pruning does comparably to
directly training a model in the smaller size. We report inference speed
because a parameter reduction does not necessitate speedup, and we measure
model quality using an accurate non-intrusive objective speech quality metric.
- Abstract(参考訳): 本研究では,深部雑音抑圧(DNS)モデルの予測時間を高速化するアーキテクチャ探索として,等級構造プルーニングが果たす役割について検討する。
ディープラーニングのアプローチは、オーディオ品質の向上に著しく成功したが、複雑さの増加は、リアルタイムアプリケーションへのデプロイを阻害している。
ベースライン上での最大7.25倍の推論スピードアップを達成し、スムーズなモデル性能低下を実現しました。
アブレーション研究は,提案するネットワーク再パラメータ化(層当たりのサイズ)が速度アップの主要な要因であり,構造的プルーニングはより小さなサイズでモデルを直接トレーニングすることと相容れないことを示した。
パラメータの削減はスピードアップを必要としないため,推論速度を報告し,精度の高い非侵襲的音声品質指標を用いてモデル品質を測定する。
関連論文リスト
- Optimization of DNN-based speaker verification model through efficient quantization technique [15.250677730668466]
ディープモデルの量子化は、計算コストとメモリコストの両方を削減する手段を提供する。
本研究では,話者検証モデルの定量化のための最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-12T05:03:10Z) - Neural Language Model Pruning for Automatic Speech Recognition [4.10609794373612]
自動音声認識のためのトランスフォーマーベースニューラルネットワークモデルに適用したモデルプルーニング法について検討した。
本研究では,プルーニングフレーム作業の3つの側面,すなわちクレーター,メソッド,スケジューラを探索し,それらの寄与を精度と推論速度の観点から分析する。
論文 参考訳(メタデータ) (2023-10-05T10:01:32Z) - Accelerating Deep Neural Networks via Semi-Structured Activation
Sparsity [0.0]
ネットワークの機能マップにスパシティを爆発させることは、推論のレイテンシを低減する方法の1つです。
そこで本研究では,セミ構造化されたアクティベーション空間を小さなランタイム修正によって活用する手法を提案する。
当社のアプローチでは,ImageNetデータセット上のResNet18モデルに対して,最小精度が1.1%の1.25倍の速度向上を実現している。
論文 参考訳(メタデータ) (2023-09-12T22:28:53Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Task-Agnostic Structured Pruning of Speech Representation Models [18.555223754089905]
性能劣化を補うための微粒なアテンションヘッドプルーニング法を提案する。
SUPERBベンチマーク実験により,複数のタスクで高密度モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2023-06-02T09:11:06Z) - On Compressing Sequences for Self-Supervised Speech Models [78.62210521316081]
自己教師型学習における時間軸に沿った固定長と可変長のサブサンプリングについて検討した。
可変長サブサンプリングは,低フレームレートで特に良好に動作することがわかった。
音素境界にアクセスできる場合、平均フレームレートが10Hz以下の場合、性能の劣化は見つからない。
論文 参考訳(メタデータ) (2022-10-13T17:10:02Z) - High-dimensional Bayesian Optimization for CNN Auto Pruning with
Clustering and Rollback [4.479322015267904]
プルーニングは、精度とモデルサイズの間の良好なトレードオフを達成するために、畳み込みニューラルネットワーク(CNN)モデルをスリム化するために広く使用されている。
本研究では,高次元設計空間におけるオートプルーニングの高速化を目的とした拡張BOエージェントを提案する。
我々は,提案手法をResNet,MobileNet,VGGモデルで検証し,提案手法が極めて深いCNNモデルにおいてBOの精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-09-22T08:39:15Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。