論文の概要: SEOFP-NET: Compression and Acceleration of Deep Neural Networks for
Speech Enhancement Using Sign-Exponent-Only Floating-Points
- arxiv url: http://arxiv.org/abs/2111.04436v1
- Date: Mon, 8 Nov 2021 12:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 17:50:23.816742
- Title: SEOFP-NET: Compression and Acceleration of Deep Neural Networks for
Speech Enhancement Using Sign-Exponent-Only Floating-Points
- Title(参考訳): SEOFP-NET:手動浮動小数点を用いた音声強調のためのディープニューラルネットワークの圧縮と高速化
- Authors: Yu-Chen Lin, Cheng Yu, Yi-Te Hsu, Szu-Wei Fu, Yu Tsao, Tei-Wei Kuo
- Abstract要約: モデルサイズを圧縮し,音声強調のための推論時間を高速化するために,新しい手話のみ浮動小数点ネットワーク(SEOFP-NET)を提案する。
提案手法は,訓練中の単一精度浮動小数点パラメータの分数ビットを定量化することにより,ディープニューラルネットワーク(DNN)に基づく音声強調モデルのサイズを圧縮する。
実験結果から,SEOFP-NETモデルのサイズを81.249%まで圧縮できることがわかった。
- 参考スコア(独自算出の注目度): 29.379647592320527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous compression and acceleration strategies have achieved outstanding
results on classification tasks in various fields, such as computer vision and
speech signal processing. Nevertheless, the same strategies have yielded
ungratified performance on regression tasks because the nature between these
and classification tasks differs. In this paper, a novel sign-exponent-only
floating-point network (SEOFP-NET) technique is proposed to compress the model
size and accelerate the inference time for speech enhancement, a regression
task of speech signal processing. The proposed method compressed the sizes of
deep neural network (DNN)-based speech enhancement models by quantizing the
fraction bits of single-precision floating-point parameters during training.
Before inference implementation, all parameters in the trained SEOFP-NET model
are slightly adjusted to accelerate the inference time by replacing the
floating-point multiplier with an integer-adder. For generalization, the
SEOFP-NET technique is introduced to different speech enhancement tasks in
speech signal processing with different model architectures under various
corpora. The experimental results indicate that the size of SEOFP-NET models
can be significantly compressed by up to 81.249% without noticeably downgrading
their speech enhancement performance, and the inference time can be accelerated
to 1.212x compared with the baseline models. The results also verify that the
proposed SEOFP-NET can cooperate with other efficiency strategies to achieve a
synergy effect for model compression. In addition, the just noticeable
difference (JND) was applied to the user study experiment to statistically
analyze the effect of speech enhancement on listening. The results indicate
that the listeners cannot facilely differentiate between the enhanced speech
signals processed by the baseline model and the proposed SEOFP-NET.
- Abstract(参考訳): コンピュータビジョンや音声信号処理など,様々な分野の分類タスクにおいて,多くの圧縮・加速戦略が達成されている。
それにもかかわらず、これらのタスクと分類タスクの性質が異なるため、同じ戦略は回帰タスクで目立たないパフォーマンスをもたらしている。
本稿では,音声信号処理のレグレッションタスクである音声強調のためのモデルサイズを圧縮し,推論時間を高速化する,新しいサイン-exonent-only floating-point Network (SEOFP-NET)技術を提案する。
提案手法は,訓練中の単一精度浮動小数点パラメータの分数ビットを定量化することにより,ディープニューラルネットワーク(DNN)に基づく音声強調モデルのサイズを圧縮する。
推論実装の前に、トレーニングされたSEOFP-NETモデルの全てのパラメータを少し調整して、浮動小数点乗算器を整数加算器に置き換えることで推論時間を高速化する。
一般化のために、sofp-net技術は様々なコーパスの下で異なるモデルアーキテクチャを持つ音声信号処理における異なる音声強調タスクに導入されている。
実験の結果、sofp-netモデルのサイズは音声強調性能を著しく低下させることなく81.249%まで大幅に圧縮でき、推定時間はベースラインモデルと比較して1.212倍に加速できることがわかった。
また,提案したSEOFP-NETが他の効率戦略と協調してモデル圧縮の相乗効果を実現できることを確認した。
さらに, 音声強調が聴取に与える影響を統計的に分析するために, ユーザスタディ実験に, 注目の相違点(JND)を適用した。
その結果,ベースラインモデルにより処理された音声信号と提案したSEOFP-NETとを,聴取者が容易に区別できないことがわかった。
関連論文リスト
- Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Efficient Ensemble for Multimodal Punctuation Restoration using
Time-Delay Neural Network [1.006218778776515]
自動音声認識の処理過程において,句読解は重要な役割を担っている。
マルチモーダル時間遅延ニューラルネットワークを用いたアンサンブル手法であるEfficientPunctを提案する。
現在のベストモデルを1.0 F1ポイント上回り、推論ネットワークパラメータの10分の1以下である。
論文 参考訳(メタデータ) (2023-02-26T18:28:20Z) - Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。
既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。
本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文 参考訳(メタデータ) (2022-11-01T14:38:18Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-11T13:05:06Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z) - Dynamic Gradient Aggregation for Federated Domain Adaptation [31.264050568762592]
フェデレートラーニング(FL)のための新しい学習アルゴリズムを提案する。
提案手法は,2段階最適化を用いた重み付き勾配集約に基づいてフレキシブルなトレーニングパイプラインを提供する。
本研究では,制御・教師なし音声認識(SR)におけるFLアルゴリズムの効果について検討する。
論文 参考訳(メタデータ) (2021-06-14T16:34:28Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Ensembles of Spiking Neural Networks [0.3007949058551534]
本稿では,最先端の結果を生み出すスパイクニューラルネットワークのアンサンブルを構築する方法について述べる。
MNIST, NMNIST, DVS Gestureデータセットの分類精度は98.71%, 100.0%, 99.09%である。
我々は、スパイキングニューラルネットワークをGLM予測器として形式化し、ターゲットドメインに適した表現を識別する。
論文 参考訳(メタデータ) (2020-10-15T17:45:18Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。