論文の概要: DeepFilterNet2: Towards Real-Time Speech Enhancement on Embedded Devices
for Full-Band Audio
- arxiv url: http://arxiv.org/abs/2205.05474v1
- Date: Wed, 11 May 2022 13:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 02:05:11.374233
- Title: DeepFilterNet2: Towards Real-Time Speech Enhancement on Embedded Devices
for Full-Band Audio
- Title(参考訳): DeepFilterNet2: 組み込みデバイスによるフルバンドオーディオのリアルタイム音声強調
- Authors: Hendrik Schr\"oter, Alberto N. Escalante-B., Tobias Rosenkranz,
Andreas Maier
- Abstract要約: DeepFilterNetは効率的な音声強調(SE)を可能にする音声の調和構造を利用する
トレーニング手順、データ拡張、ネットワーク構造におけるいくつかの最適化は、最先端のSEパフォーマンスをもたらす。
これにより,組込みデバイス上でリアルタイムに動作可能なアルゴリズムが実現される。
- 参考スコア(独自算出の注目度): 10.662665274373387
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep learning-based speech enhancement has seen huge improvements and
recently also expanded to full band audio (48 kHz). However, many approaches
have a rather high computational complexity and require big temporal buffers
for real time usage e.g. due to temporal convolutions or attention. Both make
those approaches not feasible on embedded devices. This work further extends
DeepFilterNet, which exploits harmonic structure of speech allowing for
efficient speech enhancement (SE). Several optimizations in the training
procedure, data augmentation, and network structure result in state-of-the-art
SE performance while reducing the real-time factor to 0.04 on a notebook
Core-i5 CPU. This makes the algorithm applicable to run on embedded devices in
real-time. The DeepFilterNet framework can be obtained under an open source
license.
- Abstract(参考訳): ディープラーニングベースの音声強調は大幅に改善され、最近はフルバンドオーディオ(48kHz)にも拡張された。
しかし、多くのアプローチは計算の複雑さがかなり高く、時間的畳み込みや注意によるリアルタイム利用には大きな時間的バッファを必要とする。
どちらも、組み込みデバイスでは実現不可能なアプローチだ。
この研究はさらにDeepFilterNetを拡張し、効率的な音声強調(SE)を可能にする音声の調和構造を利用する。
トレーニング手順、データ拡張、ネットワーク構造におけるいくつかの最適化は、ノートブックのCore-i5 CPU上でのリアルタイム係数を0.04に抑えながら、最先端のSEパフォーマンスをもたらす。
これにより,組込みデバイス上でリアルタイムに動作可能なアルゴリズムが実現される。
deepfilternetフレームワークはオープンソースライセンスで入手することができる。
関連論文リスト
- Scalable Speech Enhancement with Dynamic Channel Pruning [0.44998333629984877]
遠隔協調環境における生産性向上には,音声強調(SE)が不可欠である。
ディープラーニングモデルはSEでは非常に効果的であるが、その計算要求により組み込みシステムでは実用的ではない。
音声領域にDynamic Channel Pruningを導入し,それをSEの独自の畳み込みアーキテクチャに適用する。
論文 参考訳(メタデータ) (2024-12-22T18:21:08Z) - DeepFilterNet: Perceptually Motivated Real-Time Speech Enhancement [10.662665274373387]
本稿では,DeepFilterNetを用いたリアルタイム音声強調デモを示す。
我々のモデルは,1スレッドノートブックCPU上で,リアルタイムの0.19を達成しつつ,最先端の音声強調ベンチマークと一致させることができる。
論文 参考訳(メタデータ) (2023-05-14T19:09:35Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - End-to-End Neural Audio Coding for Real-Time Communications [22.699018098484707]
本稿では、リアルタイム通信(RTC)のための低レイテンシでエンドツーエンドのニューラルオーディオシステムTFNetを提案する。
短期的および長期的両方の時間的依存関係をキャプチャするために,時間的フィルタリングのためのインターリーブ構造を提案する。
エンドツーエンドの最適化により、TFNetは音声強調とパケットロスの隠蔽を共同で最適化し、3つのタスクに1対1のネットワークを提供する。
論文 参考訳(メタデータ) (2022-01-24T03:06:30Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - DeepFilterNet: A Low Complexity Speech Enhancement Framework for
Full-Band Audio based on Deep Filtering [9.200520879361916]
ディープフィルタを利用した2段階音声強調フレームワークDeepFilterNetを提案する。
まず、人間の周波数知覚をモデル化したERBスケールゲインを用いてスペクトルエンベロープを強化する。
第2段階では、音声の周期的成分を高めるためにディープフィルタリングを用いる。
論文 参考訳(メタデータ) (2021-10-11T20:03:52Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - LightSpeech: Lightweight and Fast Text to Speech with Neural
Architecture Search [127.56834100382878]
我々は、FastSpeechに基づくより軽量で効率的なTSモデルを自動的に設計するLightSpeechを提案する。
実験の結果,提案手法により検出されたモデルは,CPU上での15倍のモデル圧縮比と6.5倍の推論高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-02-08T07:45:06Z) - A.I. based Embedded Speech to Text Using Deepspeech [3.2221306786493065]
本稿では,ローエンド計算装置における音声認識の実装プロセスについて述べる。
Deepspeechはオープンソースの音声認識で、ニューラルネットワークを使って音声スペクトログラムをテキストの書き起こしに変換する。
本稿では,Deepspeechバージョン0.1.0,0.1.1,0.6.0を用いて実験を行った。
論文 参考訳(メタデータ) (2020-02-25T08:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。