論文の概要、ライセンス

# (参考訳) DeepFilterNet2: 組み込みデバイスによるフルバンドオーディオのリアルタイム音声強調 [全文訳有]

DeepFilterNet2: Towards Real-Time Speech Enhancement on Embedded Devices for Full-Band Audio ( http://arxiv.org/abs/2205.05474v1 )

ライセンス: CC BY-SA 4.0
Hendrik Schr\"oter, Alberto N. Escalante-B., Tobias Rosenkranz, Andreas Maier(参考訳) ディープラーニングベースの音声強調は大幅に改善され、最近はフルバンドオーディオ(48kHz)にも拡張された。 しかし、多くのアプローチは計算の複雑さがかなり高く、時間的畳み込みや注意によるリアルタイム利用には大きな時間的バッファを必要とする。 どちらも、組み込みデバイスでは実現不可能なアプローチだ。 この研究はさらにDeepFilterNetを拡張し、効率的な音声強調(SE)を可能にする音声の調和構造を利用する。 トレーニング手順、データ拡張、ネットワーク構造におけるいくつかの最適化は、ノートブックのCore-i5 CPU上でのリアルタイム係数を0.04に抑えながら、最先端のSEパフォーマンスをもたらす。 これにより,組込みデバイス上でリアルタイムに動作可能なアルゴリズムが実現される。 deepfilternetフレームワークはオープンソースライセンスで入手することができる。

Deep learning-based speech enhancement has seen huge improvements and recently also expanded to full band audio (48 kHz). However, many approaches have a rather high computational complexity and require big temporal buffers for real time usage e.g. due to temporal convolutions or attention. Both make those approaches not feasible on embedded devices. This work further extends DeepFilterNet, which exploits harmonic structure of speech allowing for efficient speech enhancement (SE). Several optimizations in the training procedure, data augmentation, and network structure result in state-of-the-art SE performance while reducing the real-time factor to 0.04 on a notebook Core-i5 CPU. This makes the algorithm applicable to run on embedded devices in real-time. The DeepFilterNet framework can be obtained under an open source license.
公開日: Wed, 11 May 2022 13:19:41 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
DEEPFILTERNET2: TOWARDS REAL-TIME SPEECH ENHANCEMENT ON EMBEDDED DeEPFILTERNET2: 組込みによるリアルタイム音声強調 0.65
DEVICES FOR FULL-BAND AUDIO フルバンドオーディオ用デバイス 0.50
H. Schr¨oter, A. Maier∗ h. schr ショター a. maier∗ 0.51
A.N. Escalante-B. A.N.エスカランテ-B。 0.44
, T. Rosenkranz , T. Rosenkranz 0.47
Friedrich-Alexander- Universit¨at Erlangen-N¨urnberg フリードリヒ・アレクサンダー大学エルランゲン・ン・シュルンベルク校 0.31
Pattern Recognition Lab Erlangen, Germany パターン認識研究室 Erlangen (複数形 Erlangens) 0.45
WS Audiology Research and Development WSオーディオ 研究開発 0.51
Erlangen, Germany Erlangen (複数形 Erlangens) 0.17
2 2 0 2 y a M 1 1 2 2 0 2 y a m 1 1 である。 0.54
] S A . s s e e [ ] s a。 s s e e である。 0.40
1 v 4 7 4 5 0 1 v 4 7 4 5 0 0.43
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
ABSTRACT Deep learning-based speech enhancement has seen huge improvements and recently also expanded to full band audio (48 kHz). ABSTRACT ディープラーニングベースの音声強調は大幅に改善され、最近はフルバンドオーディオ(48kHz)にも拡張された。 0.52
However, many approaches have a rather high computational complexity and require big temporal buffers for real time usage e g due to temporal convolutions or attention. しかし、多くの手法は計算の複雑さがかなり高く、例えば時間的畳み込みや注意によるリアルタイム利用には大きな時間的バッファを必要とする。 0.74
Both make those approaches not feasible on embedded devices. どちらも、組み込みデバイスでは実現不可能なアプローチだ。 0.62
This work further extends DeepFilterNet, which exploits harmonic structure of speech allowing for efficient speech enhancement (SE). この研究はさらにDeepFilterNetを拡張し、効率的な音声強調(SE)を可能にする音声の調和構造を利用する。 0.65
Several optimizations in the training procedure, data augmentation, and network structure result in state-of-the-art SE performance while reducing the real-time factor to 0.04 on a notebook Core-i5 CPU. トレーニング手順、データ拡張、ネットワーク構造におけるいくつかの最適化は、ノートブックのCore-i5 CPU上でのリアルタイム係数を0.04に抑えながら、最先端のSEパフォーマンスをもたらす。 0.56
This makes the algorithm applicable to run on embedded devices in real-time. これにより,組込みデバイス上でリアルタイムに動作可能なアルゴリズムが実現される。 0.65
The DeepFilterNet framework can be obtained under an open source license. deepfilternetフレームワークはオープンソースライセンスで入手することができる。 0.71
Index Terms— DeepFilterNet, speech enhancement, インデックス用語 - deepfilternet, speech enhancement, 0.82
full-band, two-stage modeling フルバンド2段階モデリング 0.73
1. INTRODUCTION Recently, deep learning-based speech enhancement have been extended to full-band (48 kHz) [1, 2, 3, 4]. 1.導入 近年,深層学習に基づく音声強調が全帯域 (48kHz) [1, 2, 3, 4] に拡張されている。 0.73
Most SOTA methods perform SE in frequency domain by applying a short-time Fourier transform (STFT) to the noisy audio signal and enhance the signal in an U-Net like deep neural network (DNN). 多くのSOTA法は、雑音の多い音声信号に短時間フーリエ変換(STFT)を適用し、深層ニューラルネットワーク(DNN)のようなU-Netの信号を強化することで周波数領域でSEを実行する。 0.74
However, many approaches have relatively large computational demands in terms of multiply-accumulate operations (MACs) and memory bandwidth. しかし、多くのアプローチは、乗算累積演算(MAC)とメモリ帯域幅の点で比較的大きな計算要求がある。 0.75
That is, the higher sampling rate usually requires large FFT windows resulting in a high number of frequency bins which directly translates to a higher number of MACs. つまり、高いサンプリングレートでは、通常、大きなFFTウィンドウを必要とするため、多くの周波数ビンが直接多くのMACに変換される。 0.70
PercepNet [1] tackles this problem by using a triangular ERB (equivalent rectangular bandwidth) filter bank. PercepNet [1] は三角形の ERB (equivalent square bandwidth) フィルタバンクを用いてこの問題に対処する。 0.84
Here, the frequency bins of the magnitude spectrogram are logarithmically compressed to 32 ERB bands. ここで、マグニチュードスペクトログラムの周波数ビンは、32のerbバンドに対数圧縮される。 0.72
However, this only allows real-valued processing which is why PercepNet additionally applies a comb-filter for finer enhancement of periodic component of speech. しかし、これは実際の処理しかできないため、PercepNetは音声の周期成分のより微細化のためにcomb-filterを付加する。 0.64
FRCRN [3] instead splits the frequency bins into 3 channels to reduce the size of the frequency FRCRN[3]は代わりに周波数ビンを3つのチャネルに分割して周波数を小さくする 0.83
∗A. Maier is the last author of this paper. ∗A。 マイアーはこの論文の最後の著者である。 0.50
axis. This approaches allows complex processing and prediction of a complex ratio mask (CRM). 軸 このアプローチは複雑な処理と複雑な比マスク(CRM)の予測を可能にする。 0.61
Similarly, DMF-Net [4] uses a multi-band approach, where the frequency axis is split into 3 bands that are separately processed by different networks. 同様に、DMF-Net [4] は、周波数軸を3つのバンドに分割し、異なるネットワークで個別に処理するマルチバンドアプローチを用いる。 0.82
Generally, multi-stage networks like DMF-Net have recently demonstrated their potential compared to single stage approaches. 一般に、DMF-Netのようなマルチステージネットワークは、最近シングルステージアプローチと比較してその可能性を実証している。 0.51
GaGNet [5], for instance, uses two so called glance and gaze stages after a feature extraction stage. 例えば、GaGNet[5]は、機能抽出段階の後に2つのいわゆる外見と視線ステージを使用します。 0.74
The glance module works on a coarse magnitude domain, while the gaze module processes the spectrum in complex domain allowing to reconstruct the spectrum at a finer resolution. 視線モジュールは粗い大きさの領域で働き、視線モジュールは複雑な領域でスペクトルを処理し、より微細な解像度でスペクトルを再構成する。 0.71
In this work we extend the work from [2] which also operates in two stages. この作業では、2つの段階で動作する[2]から作業を拡張します。 0.71
DeepFilterNet takes advantage of the speech model consisting of a periodic and a stochastic component. DeepFilterNetは周期成分と確率成分からなる音声モデルを利用する。 0.63
The first stage operates in ERB domain, only enhancing the speech envelope, while the second stage uses deep filtering [6, 7] to enhance the periodic component. 第1段はerbドメインで動作し、音声エンベロープを強調するだけであり、第2段は周期成分を強化するために深いフィルタリング[6,7]を使用する。
訳抜け防止モード: 第1段階はERBドメインで動作する。 スピーチ・エンベロープを 強化するだけだ 第2段階は 深度フィルタリング [ 6, 7 ] を使って 周期成分を増強します
0.79
In this paper, we describe several optimizations resulting in SOTA performance on the Voicebank+Demand [8] and deep noise suppression (DNS) 4 blind test challenge dataset [9]. 本稿では,voicebank+demand [8] と deep noise suppression (dns) 4 blind test challenge dataset [9] で sota 性能が向上したいくつかの最適化について述べる。 0.80
Moreover, these optimizations lead to an increased run-time performance, making it possible to run the model in real-time on a Raspberry Pi 4. さらに、これらの最適化によって実行時のパフォーマンスが向上し、raspberry pi 4上でリアルタイムにモデルを実行することが可能になった。 0.70
2. METHODS 2.1. 2.方法 2.1. 0.49
Signal Model and the DeepFilterNet framework We assume noise and speech to be uncorrelated such as: Signal ModelとDeepFilterNetフレームワーク ノイズと音声は次のような非相関であると仮定する。 0.71
x(t) = s(t) ∗ h(t) + n(t) x(t) = s(t) ∗ h(t) + n(t) 0.43
(1) where s(t) is a clean speech signal, n(t) is an additive noise, and h(t) a room impulse response modeling the reverberant environment resulting in a noisy mixture x(t). (1) s(t) はクリーンな音声信号であり、n(t) は付加的な雑音であり、h(t) は残響環境をモデル化した室内インパルス応答であり、ノイズ混合 x(t) となる。 0.61
This directly translates to frequency domain: これは周波数領域に直接翻訳します 0.62
X(k, f ) = S(k, f ) · H(k, f ) + N (k, f ), X(k, f ) = S(k, f ) · H(k, f ) + N(k, f ) 0.41
(2) where X(k, f ) is the STFT representation of the time domain signal x(t) and k, f are the time and frequency indices. (2) x(k, f) が時間領域信号 x(t) と k の stft 表現であるとき、f は時間と周波数の指標である。 0.60
In this work, we adopt the two-stage denoising process of DeepFilterNet [2]. 本研究では,DeepFilterNet [2] の2段階化プロセスを採用する。 0.78
That is, the first stage operates in magnitude domain and predicts real-valued gains. すなわち、第1段階はマグニチュードドメインで動作し、実値の利得を予測する。 0.70
The whole first 978-1-6654-6867-1/22 /$31.00 ©2022 European Union まず第一に 978-1-6654-6867-1/22 /$31.00 ]2022 欧州連合 0.52
英語(論文から抽出)日本語訳スコア
Fig. 1. Schematic overview of the DeepFilterNet2 speech enhancement process. 図1。 deepfilternet2音声強調処理の概要 0.37
stage operates in an compressed ERB domain which serves the purpose of reducing computational complexity while modeling auditory perception of the human ear. ステージは、人間の耳の聴覚知覚をモデル化しながら、計算複雑性を低減する目的で圧縮されたERBドメインで動作する。 0.61
Thus, the aim of the first stage is to enhance the speech envelope given its coarse frequency resolution. したがって、第1段階の目的は、その粗い周波数分解能から音声エンベロープを強化することである。 0.59
The second stage operates in complex domain utilizing deep filtering [7, 6] and is trying to reconstruct the periodicity of speech. 第2段階は, ディープフィルタ [7, 6] を利用した複雑な領域で動作し, 音声の周期性を再構築しようとしている。 0.73
[2] showed, that deep filtering (DF) generally outperforms traditional complex ratio masks (CRMs) especially in very noisy conditions. [2]) 深層濾過 (df) は, 従来の複合比マスク (crm) よりも, 特にうるさい条件下では優れていた。 0.79
The combined SE procedure can be formulated as follows. 組み合わせたse手順は次のように定式化できる。 0.66
An encoder Fenc encodes both ERB and complex features into one embedding E. エンコーダfencはerbと複素特徴の両方を1つの埋め込みeにエンコードする。 0.61
E(k) = Fenc(Xerb(k, b), Xdf(k, ferb)) E(k) = Fenc(Xerb(k, b), Xdf(k, ferb)) 0.41
(3) Next, the first stage predicts real-valued gains G and enhances the speech envelope resulting in the short-time spectrum YG. (3) 次に、第1段は実値ゲインGを予測し、短時間スペクトルYGとなる音声エンベロープを強化する。 0.56
Gerb(k, b) = Ferb dec(E(k)) G(k, f ) = interp(Gerb(k, b)) YG(k, f ) = X(k, f ) · G(k, f ) Gerb(k, b) = Ferb dec(E(k)) G(k, f ) = interp(Gerb(k, b)) YG(k, f ) = X(k, f ) · G(k, f ) 0.42
(4) Finally in the second stage, Fdf dec predicts DF coefficients C N (4) 最後に、FdfはDF係数CNを予測する。 0.50
df of order N which are then linearly applied to YG. 次数 N の df は YG に対して線型に適用される。 0.82
df (k, i, fdf) = Fdf dec(E(k)) C N df (k, i, fdf) = Fdf dec(E(k)) C N 0.42
N(cid:88) Y (k, f(cid:48)) = N(第88回) Y (k, f(cid:48)) = 0.57
C(k, i, f(cid:48)) · X(k − i + l, f ), C(k, i, f(cid:48)) · X(k − i + l, f ) 0.44
(5) i=0 where l is the DF look-ahead. (5) i=0 ここで l は DF のルックアヘッドです。 0.44
As stated before, the second stage only operates on the lower part of the spectrogram up to a frequency fdf = 5 kHz. 前述したように、第2段階はスペクトルグラムの下部でしか動作せず、周波数 fdf = 5 kHz となる。 0.79
The DeepFilterNet2 framework is visualized in Fig 1. DeepFilterNet2フレームワークは、図1.1で視覚化されている。 0.53
2.2. Training Procedure In DeepFilterNet [2], we used an exponential learning rate schedule and fixed weight decay. 2.2. DeepFilterNet のトレーニング手順 [2] では指数学習率スケジュールと固定重量減衰を用いた。 0.54
In this work, we additionally use a learning rate warmup of 3 epochs followed by a cosine decay. 本研究では,3エポックの学習率ウォームアップとコサイン崩壊を併用する。 0.50
Most importantly, we update the learning rate at every iteration, instead of after each epoch. 最も重要なことは、各エポックの後にではなく、各イテレーションで学習率を更新します。 0.58
Similarly, we schedule the weight decay with an increasing cosine schedule resulting in a larger regularization for the later stages of the training. 同様に、重量減衰をコサインスケジュールの増大とともにスケジュールし、トレーニングの後半段階ではより大きな正規化をもたらす。 0.72
Finally, to achieve faster convergence especially in the beginning of the training, we use batch scheduling [10] starting with a batch size of 8 and gradually increasing it to 96. 最後に,特にトレーニング開始時に高速収束を達成するために,バッチスケジューリング [10] をバッチサイズから開始し,徐々に96に拡張した。 0.72
The scheduling scheme can be observed in Fig 2. スケジューリングスキームは図2で見ることができる。 0.74
Fig. 2. Learning rate, weight decay and batch size scheduling used for training. 図2。 トレーニングに使用される学習率、体重減少、バッチサイズスケジューリング。 0.65
2.3. Multi-Target Loss We adopt the spectrogram loss Lspec from [2]. 2.3. マルチターゲット損失 [2] からスペクトル損失 Lspec を採用する。 0.57
Additionally use a multi-resolution (MR) spectrogram loss where the enhancement spectrogram Y (k, f ) is first transformed into time-domain before computing multiple STFTs with windows from 5 ms to 40 ms [11]. さらに、拡張スペクトログラムY(k,f)が最初に時間領域に変換されたマルチレゾリューション(MR)スペクトログラムロスを使用して、複数のSTFTを5msから40ms[11]のウィンドウで計算する。 0.74
To propagate the gradient for this loss, we use the pytorch STFT/ISTFT, which is numerically sufficiently close to the original DeepFilterNet processing loop implemented in Rust. この損失の勾配を伝搬するために、Pytorch STFT/ISTFTを用いており、これはRustで実装されたオリジナルのDeepFilterNet処理ループに十分近い数値である。
訳抜け防止モード: この損失の勾配を伝播させる。 我々は pytorch STFT / ISTFT を使い Rustで実装されたオリジナルのDeepFilterNet処理ループに十分近い数値である。
0.78
LMR = i|cejϕS||2, (6) LMR = i|cejφs||2,(6) 0.35
i |c−|S(cid:48) i |c−|S(cid:48) 0.29
(cid:88) || |Y (cid:48) (cid:88) ||y(cid:48) 0.39
i|c||2|| |Y (cid:48) i|c||2||y(cid:48) 0.23
i |cejϕY −|S(cid:48) i |cejφY −|S(cid:48) 0.29
i where Y (cid:48) i = STFTi(y) is the i-th STFT with window sizes in {5, 10, 20, 40}ms of the predicted TD signal y, and c = 0.3 is a compression parameter [1]. 私は ここで Y (cid:48) i = STFTi(y) は、予測されたTD信号 y の {5, 10, 20, 40}ms のウィンドウサイズを持つ i 番目の STFT であり、c = 0.3 は圧縮パラメータ [1] である。 0.68
Compared to DeepFilterNet [2], we drop the α loss term since the employed heuristic is only a poor approximation of the local speeech periodicity. deepfilternet [2]と比較すると、使用済みのヒューリスティックは局所スペーチ周期性の貧弱な近似に過ぎないため、α損失項は減少する。 0.66
Also, DF may enhance speech in non-voiced sections and can disable its effect by setting the real part of the coefficient at t0 to 1 and the remaining coefficients to 0. また、DFは無声区間における音声を増強し、係数の実部をt0〜1とし、残りの係数を0とする効果を無効化することができる。 0.66
The combined multi-target loss is given by: 複合多目的損失は以下の通りである。 0.69
L = λspecLspec + λMRLMR L = λspecLspec + λMRLMR 0.44
(7) 2.4. Data and Augmentation While DeepFilterNet was trained on the deep noise suppression (DNS) 3 challenge dataset [12], we train DeepFilterNet2 on the english part of DNS4 [9] which contains more fullband noise and speech samples. (7) 2.4. Data and Augmentation DeepFilterNetは、ディープノイズ抑圧(DNS)3チャレンジデータセット[12]でトレーニングされていますが、よりフルバンドノイズと音声サンプルを含むDNS4[9]の英語部分でDeepFilterNet2をトレーニングしています。 0.52
In speech enhancement, usually only background noise and in some cases reverberation is reduced [1, 11, 2]. 音声強調では、通常、背景雑音のみを低減し、場合によっては残響を減少させる[1, 11, 2]。 0.67
In this work, we further extended the SE concept to declipping. この作業では、SEの概念をさらにデクリッピングに拡張しました。 0.60
Therefore, we distinguish between augmentations and distortions in the したがって、増大と歪みを区別する。 0.57
STFTX(k,f)ERBFeature sComplexFeaturesY(k, f)Gerb(k,b)CN(k+l,i,fdf)ISTFTStage 2: PeriodicityDeepFilte rXerb(k,b)EncoderXdf (k,fdf)ERBDecoderDFD ecoderStage 1: Envelopex(t)ApplyGai nsy(t)YG(k,f)0510152 02530354045505560657 07580859095Epochs0.0 0000.00020.00040.000 60.00080.0010Learnin g RateLearning RateWeight DecayBatch Size0.000.010.020.03 0.040.05Weight Decay081624326496128 Batch Size stftx(k,f)erbfeature scomplexfeaturesy(k, f)gerb(k,b)cn(k+l,i,fdf)istftstage 2: periodicitydeepfilte rxerb(k,b)encoderxdf (k,fdf)erbdecoderdfd ecoderstage 1: envelopex(t)applygai nsy(t)yg(k,f)0510202 02530454545454545456 07080809095epochs0.0 0000.00040.00080.001 0learning ratelearning ratelearning rateweight decaybatch size0.000.010.020.03 20.030.040.05weight decay0816646464128ba tch size 0.29
英語(論文から抽出)日本語訳スコア
on-the-fly data pre-processing pipeline. オンザフライデータ前処理パイプライン。 0.58
Augmentations are applied to speech and noise samples with the aim of further extending the data distributions the network observes during training. トレーニング中にネットワークが観測するデータ分布をさらに拡張するために、音声および雑音サンプルに拡張を適用する。 0.76
Distortions, on the other hand, are only applied to speech samples for noisy mixture creation. 一方、歪みは雑音混合生成のための音声サンプルにのみ適用される。 0.63
The clean speech target is not affected by a distortion transform. クリーンな音声ターゲットは歪み変換の影響を受けない。 0.63
Thus, the DNN learns to reconstruct the original, undistorted speech signal. これにより、dnnは、原音声信号の復元を学習する。 0.61
Currently, the DeepFilterNet framework supports the following randomized augmentations: 現在、DeepFilterNetフレームワークは以下のランダム化拡張をサポートしている。 0.67
• Random 2nd order filtering [13] • Gain changes • Equalizer via 2nd order filters • Resampling for speed and pitch changes [13] • Addition of colored noise (not used for speech samples) Additionally to denoising, DeepFilterNet will try to revert the following distortions: • ランダム2次フィルタリング [13] • ゲイン変更 • 2次フィルタによる等化器 • 速度とピッチの変化に対する再サンプリング [13] • 色ノイズの追加(音声サンプルには使用されない) さらに、DeepFilterNetは以下の歪みを逆転させようとする。 0.92
• Reverberation; the target signal will contain a smaller amount of reverberation by decaying the room transfer function. • 残響; 対象信号は、ルーム転送関数を減衰させることにより、残響の少ない量を含む。 0.77
• Clipping artifacts with SNRs in [20, 0]dB. •[20, 0]dBでSNRでアーティファクトをクリッピングする。 0.74
2.5. DNN We keep the general convolutional U-Net structure of DeepFilterNet [2], but make the following adjustments. 2.5. DNN 我々は、deepfilternet [2] の一般畳み込み u-net 構造を保持するが、以下の調整を行う。
訳抜け防止モード: 2.5. DNN DeepFilterNet [2 ] の一般的な畳み込み U-ネット構造を保持します。 でも 以下の調整を。
0.50
The final architecture is shown in Fig 3. 最終的なアーキテクチャはfig 3で示される。 0.76
1. Unification of the encoder. 1. エンコーダの統一。 0.46
Convolutions for both ERB and complex features are now processed within the encoder, concatenated, and passed to a grouped linear (GLinear) layer and single GRU. ERBと複雑な機能の両方の畳み込みは、エンコーダ内で処理され、連結され、グループ化された線形(GLinear)層と単一のGRUに渡される。 0.69
2. Simplify Grouping. 2.グループ化の簡略化。 0.68
Previously, grouping of linear and GRU layers was implemented via separate smaller layers which results in a relatively high processing overhead. 以前は、線形層とGRU層のグループ化は、比較的高い処理オーバーヘッドをもたらす小さな層によって実装されていた。 0.67
In DeepFilterNet2, only linear layers are grouped over the frequency axis, implemented via a single matrix multiplication. DeepFilterNet2では、線形層のみが周波数軸上にグループ化され、単一の行列乗算によって実装される。 0.66
The GRU hidden dim was instead reduced to 256. GRUの隠しダイムは256に削減された。 0.81
We also apply grouping in the output layer of the DF decoder with the incentive that the neighboring frequencies are sufficient for predicting the filter coefficients. また,dfデコーダの出力層にグルーピングを適用し,隣接周波数がフィルタ係数の予測に十分であることを示す。 0.68
This greatly reduces run-time, while only minimaly increasing the number of FLOPs. これは実行時間を大幅に削減するが、フロップ数を最小化するだけである。 0.59
3. Reduction of temporal kernels. 3. 時間的カーネルの削減 0.62
While temporal convolutions (TCN) or temporal attention have been successfully applied to SE, they require temporal buffers during realtime inference. 時間的畳み込み(TCN)や時間的注意がSEに適用されているが、リアルタイム推論では時間的バッファを必要とする。 0.61
This can be efficiently implemented via ring buffers, however, the buffers need to be held in memory. これはリングバッファを介して効率的に実装できるが、バッファをメモリに保持する必要がある。 0.82
This additional memory access may result in bandwidth being the limiting bottleneck, which could be the case especially for embedded devices. このメモリアクセスの追加は、特に組み込みデバイスでは帯域幅の制限がボトルネックとなる可能性がある。 0.75
Therefore, we reduce the kernel size of the convolutions and transposed convolutions from 2× 3 to 1× 3, that is 1D over frequency axis. したがって、畳み込みの核サイズを小さくし、畳み込みを2×3から1×3に変換し、周波数軸上の1dとする。 0.64
Only the input layer now incorporates temporal context via a causal 3×3 convolution. 入力層のみが因果3×3畳み込みによって時間的コンテキストを組み込んでいる。 0.59
This drastically reduces the use of temporal buffers during real-time inference. これにより、リアルタイム推論における時間バッファの使用が大幅に削減される。 0.54
4. Depthwise pathway convolutions. 4.奥行き経路の畳み込み 0.58
When using separable Fig. 3. 分離可能な場合 図3。 0.57
DeepFilterNet2 architecture. DeepFilterNet2アーキテクチャ。 0.85
convolutions, the vast amount of parameters and FLOPs is located at the 1×1 convolutions. 畳み込み、大量のパラメータとFLOPは1×1畳み込みに位置する。 0.49
Thus, adding grouping to pathway convolutions (PConv) results in a great parameter reduction while not losing any significant SE performance. したがって、経路畳み込み(PConv)にグルーピングを追加すると、大きなSE性能を損なうことなく、大きなパラメーターが減少する。 0.63
2.6. Post-Filter 2.6. ポストフィルタ 0.52
We adopt the post-filter, first proposed by Valin et al [1], with the aim of slightly over-attenuating noisy TF bins while adding some gain back to less noisy bins. Valin et al [1] が最初に提案したポストフィルタは、雑音の少ない TF ビンに若干の利得を加えながら、わずかに過度に減衰することを目的としている。 0.65
We perform this on the predicted gains in the first stage: 最初の段階で予測利得でこれを実行します。 0.65
G(k, b) . (8) G(k, b) . (8) 0.42
(cid:16) π G(cid:48)(k, b) ← G(k, b)) · sin G(k, b) ← (1 + β) · G(k, b) 1 + β + G(cid:48)(b, k) (cid:16) π g(cid:48)(k, b) 〜 g(k, b) 〜 sin g(k, b) 〜 (1 + β) · g(k, b) 1 + β + g(cid:48)(b, k) 〜 sin g(k, b) 〜 (1 + β) · g(k, b) 1 + β + g(cid:48)(b, k) 0.59
2 (cid:17) 2 (cid:17) 0.41
3. EXPERIMENTS 3.1. 3.実験 3.1. 0.48
Implementation details As stated in section 2.4, we train DeepFilterNet2 on DNS4 dataset using overall more than 500 h of full-band clean speech, approx. 実施内容 第2.4条で述べたように、私たちはDNS4データセット上で、全バンドクリーンスピーチの合計500時間以上を使用してDeepFilterNet2をトレーニングします。
訳抜け防止モード: 実施内容 第2.4条で述べたように、DNS4データセットでDeepFilterNet2をトレーニングします。 全体で500時間以上 バンドクリーンスピーチ 近似
0.54
150 h of noise as well as 150 real and 60 000 simulated HRTFs. 150 h のノイズと 150 real と 60 000 のシミュレーション hrtf がある。 0.75
We split the data into train, validation and test sets (70 %, 15 %, 15 %). データを列車、検証、テストセット(70%、15%、15%)に分割しました。 0.58
The Voicebank set was split speaker-exclusive with no overlap with test set. 音声バンクセットは分割話者排他的であり、テストセットと重複しない。 0.62
We evaluate our approach on the Voicebank+Demand test set [8] as well as the DNS4 blind test set [9]. 我々はVoicebank+Demandテストセット[8]とDNS4ブラインドテストセット[9]に対するアプローチを評価した。 0.75
We train the model with AdamW for 100 epochs and select the best model based on the validation loss. 我々は100エポックでAdamWでモデルをトレーニングし、検証損失に基づいて最適なモデルを選択する。 0.81
In this work, we use 20 ms windows, an overlap of 50 %, and a look-ahead of two frames resulting in an overall algorithmic delay of 40 ms. We take 32 ERB bands, fDF = 5 kHz, a DF order of N = 5, and a look-ahead l = 2 frames. 本研究では,20msのウィンドウと50%のオーバーラップ,および2フレームのルックアヘッドを用いて,アルゴリズム全体の遅延を40msにし,32個のERBバンド,fDF = 5kHz,DFオーダーN = 5,ルックアヘッドl = 2フレームを抽出した。 0.74
The loss parameters λspec = 1e3 and λMR = 5e2 are chosen so that both losses result in the same order of magnitude. 損失パラメータ λspec = 1e3 と λMR = 5e2 は、両方の損失が同じ大きさになるように選択される。 0.82
The source code and a pretrained DeepFilterNet2 can be obtained at https://github.com/R ikorose/ DeepFilterNet. ソースコードと事前訓練されたDeepFilterNet2はhttps://github.com/R ikorose/DeepFilterNe tで入手できる。 0.66
EncoderConvERBFeatur esConvConvConvConvTC onvTConvTConvERB DecoderERBGainsDF DecoderGLinearDFCoef sComplexFeaturesGLin earGLinear1 ⨉ GRUPConvPConvPConvPC onvPConv+ConvConvGLinearGLine ar2 ⨉ GRU2 ⨉ GRUC EncoderConvERBFeatur esConvConvConvConvTC onvTConvERB DecoderERBGainsDF DecoderGLinearDFCoef sComplexFeaturesGLin earGLinear1 シュ GRUPConvPConvPConvPC onvPConv+ConvConvGLinearGLine ar2 シュ GRU2 シュ GRUC 0.17
英語(論文から抽出)日本語訳スコア
Table 1. Objective results on Voicebank+Demand test set. 表1。 Voicebank+Demandテストセットの客観的結果。 0.70
Real-time factors (RTFs) are measured on a notebook Core i5-8250U CPU by taking the average over 5 runs. リアルタイムファクタ(RTF)は、ノートブックのCore i5-8250U CPU上で平均5回以上実行することで測定される。 0.72
Unreported values of related work are indicated as “-”. 関連作業の未報告の値は "-" と示される。 0.77
Model Noisy RNNoise [13]a NSNet2 [14] PercepNet [1] DCCRN [15] c d DCCRN+ [17] S-DCCRN [16] FullSubNet+ [18] e GaGNet [5]f DMF-Net [4] FRCRN [3] DeepFilterNet [2] + Scheduling scheme Model Noisy RNNoise [13]a NSNet2 [14] PercepNet [1] DCCRN [15] c d DCCRN+ [17] S-DCCRN [16] FullSubNet+ [18] e GaGNet [5]f DMF-Net [4] FRCRN [3] DeepFilterNet [2] + Scheduling scheme
訳抜け防止モード: モデル ノイズ rnnoise [ 13]a nsnet2 [ 14 ] percepnet [ 1 ] dccrn [ 15 ] c d dccrn+ [ 17 ] s - dccrn [ 16 ] fullsubnet+ [ 18 ] e gagnet [ 5]f dmf - net [ 4 ] frcrn [ 3 ] deepfilternet [ 2 ] スケジューリング・スキーム+スケジューリング・スキーム
0.71
+ MR Spec-Loss + MR Spec-Loss 0.39
+ Improved Data & Augmentation + 改善されたデータと拡張 0.70
+ Simplified DNN + Post-Filter +簡易DNN +ポストフィルター 0.76
Params[M] MACS[G] Params[M] MACS[G] 0.43
RTF PESQ CSIG CBAK COVL RTF PESQ CSIG CBAK COVL 0.42
STOI - 0.06 6.17 8.00 3.70 3.30 2.34 8.67 5.95 7.84 10.27 ストイ - 0.06 6.17 8.00 3.70 3.30 2.34 8.67 5.95 7.84 10.27 0.31
1.78 1.78 1.78 1.78 2.31 2.31 1.78 1.78 1.78 1.78 2.31 2.31 0.43
- 0.04 0.43 0.80 14.36 - 0.04 0.43 0.80 14.36 0.33
- 30.06 1.65 - 30.06 1.65 0.34
- 12.30 0.35 0.35 0.35 0.35 0.36 0.36 - 12.30 0.35 0.35 0.35 0.35 0.36 0.36 0.31
0.03b 0.02 0.03b 0.02 0.22
- - 2.19 - - - 2.19 - 0.39
0.55 0.05 - 0.55 0.05 - 0.34
0.11 0.11 0.11 0.11 0.04 0.04 0.11 0.11 0.11 0.11 0.04 0.04 0.22
1.97 2.33 2.47 2.73 2.54 2.84 2.84 2.88 2.94 2.97 3.21 1.97 2.33 2.47 2.73 2.54 2.84 2.84 2.88 2.94 2.97 3.21 0.21
2.81 2.92 2.98 3.04 3.08 3.03 2.81 2.92 2.98 3.04 3.08 3.03 0.22
3.34 3.40 3.23 3.34 3.40 3.23 0.24
- 3.74 - 4.03 3.86 4.26 4.26 4.23 - 3.74 - 4.03 3.86 4.26 4.26 4.23 0.34
4.14 4.22 4.20 4.30 4.30 3.72 4.14 4.22 4.20 4.30 4.30 3.72 0.22
2.44 2.51 2.99 2.44 2.51 2.99 0.47
- 3.13 - 3.43 3.42 3.45 3.52 3.64 - 3.13 - 3.43 3.42 3.45 3.52 3.64 0.34
3.31 3.39 3.41 3.38 3.40 3.37 3.31 3.39 3.41 3.38 3.40 3.37 0.22
2.63 2.84 2.90 2.63 2.84 2.90 0.24
- 2.75 - 2.97 3.57 3.59 3.62 3.73 - 2.75 - 2.97 3.57 3.59 3.62 3.73 0.34
3.46 3.58 3.60 3.67 3.70 3.63 3.46 3.58 3.60 3.67 3.70 3.63 0.22
0.921 0.922 0.903 0.921 0.922 0.903 0.24
- 0.938 - 0.940 0.940 - 0.938 - 0.940 0.940 0.35
- 0.944 - 0.942 0.941 0.942 0.942 0.943 0.941 - 0.944 - 0.942 0.941 0.942 0.942 0.943 0.941 0.34
 d e s o p o r p  d e s o p o r p 0.43
aMetrics and RTF measured with source code and weights provided at https://github.com/x iph/rnnoise/ bNote, that RNNoise runs single-threaded cRTF measured with source code provided at https://github.com/h uyanxin/DeepComplexC RN dComposite and STOI metrics provided by the same authors in [16] eMetrics and RTF measured with source code and weights provided at https://github.com/h it-thusz-RookieCJ/Fu llSubNet-plus fRTF measured with source code provided at https://github.com/A ndong-Li-speech/GaGN et/ aMetricsとRTFは、https://github.com/x iph/rnnoise/bNoteで、RNNoiseは、https://github.com/h uyanxin/DeepComplexC RN dCompositeとSTOIのメトリクスで、https://github.com/h it-thusz-RookieCJ/Fu llSubNet-plus fRTFで、https://github.com/A ndong-Liong-peech/G/ Net/NetFで、ソースコードと重みで測定されている。 0.70
Table 2. DNSMOS results on the DNS4 blind test set. 表2。 DNSMOSは、DNS4ブラインドテストセットで結果を返す。 0.71
SIGMOS BAKMOS OVLMOS シGMOS BAKMOS OVLMOS 0.87
Model Noisy RNNoise [13] NSNet2 [14] FullSubNet+ [18] DeepFilterNet [2] DeepFilterNet2 + Post-Filter Model Noisy RNNoise [13] NSNet2 [14] FullSubNet+ [18] DeepFilterNet [2] DeepFilterNet2 + Post-Filter 0.48
4.14 3.88 3.87 4.22 4.14 4.20 4.19 4.14 3.88 3.87 4.22 4.14 4.20 4.19 0.21
2.94 3.69 4.21 4.12 4.18 4.43 4.47 2.94 3.69 4.21 4.12 4.18 4.43 4.47 0.21
3.29 3.38 3.59 3.75 3.75 3.88 3.90 3.29 3.38 3.59 3.75 3.75 3.88 3.90 0.21
3.2. Results We evaluate the speech enhancement performance of DeepFilterNet2 using the Valentini Voicebank+Demand test set [8]. 3.2. 結果 valentini voicebank+demand test set [8]を用いてdeepfilternet2の音声強調性能の評価を行った。 0.60
Therefore, we chose WB-PESQ [19], STOI [20] and the composite metrics CSIG, CBAK, COVL [21]. そこで我々は,WB-PESQ[19],STOI[20],CSIG,CBAK,COVL[21]を選択した。 0.67
Table 1 shows DeepFilterNet2 results in comparison with other stateof-the-art (SOTA) methods. 表1はDeepFilterNet2の結果を、他の最先端(SOTA)メソッドと比較します。 0.60
One can find that DeepFilterNet2 achieves SOTA-level results while requiring a minimal amount of multiply-accumulate operation per second (MACS). DeepFilterNet2は1秒あたりの乗算演算(MACS)を最小限必要としながら、SOTAレベルの結果が得られる。 0.73
The number of parameters has slightly increased over DeepFilterNet (Sec. 2.5), but the network is able to run more than twice as fast and achieves a 0.27 higher PESQ score. パラメータの数はDeepFilterNet (Sec. 2.5)でわずかに増加したが、ネットワークは2倍以上の速さでPESQスコアが0.27上昇している。 0.80
GaGNet [5] achieves a similar RTF while having good SE performance. GaGNet[5]は、SE性能が良く、同様のRTFを達成する。 0.78
However, it only runs fast when provided with the whole audio and requires large temporal buffers due to its usage of big temporal convolution kernels. しかし、オーディオ全体の提供時にのみ高速に動作し、大きな時間的畳み込みカーネルを使用するため、大きな時間的バッファを必要とする。 0.78
FRCRN [3] is able to obtain best results in most metrics, but has a high computational complexity not feasible for embedded devices. FRCRN[3] ほとんどのメトリクスで最高の結果を得ることができるが、組み込みデバイスでは実現できない計算の複雑さが高い。 0.57
Table 2 shows DNSMOS P.835 [22] results on the DNS4 blind test set. 表2はDNS4ブラインドテストセットでDNSMOS P.835[22]の結果を示す。 0.76
While DeepFilterNet [2] was not able to enhance the speech quality mean opinion score (SIGMOS), with DeepFilterNet2 we obtain good results also for background and overall MOS values. DeepFilterNet [2] は音声品質平均評価スコア(SIGMOS)を向上することはできなかったが、DeepFilterNet2 では背景および全体 MOS 値にも良い結果が得られた。 0.80
Moreover, DeepFilterNet2 comes relatively close to the minimum DNSMOS values that were used to select clean speech samples to train the DNS4 baseline NSNet2 (SIG=4.2, BAK=4.5, OVL=4.0) [9] further emphasizing its good SE performance. さらに、DeepFilterNet2は、DNS4ベースラインNSNet2(SIG=4.2、BAK=4.5、OVL=4.0)をトレーニングするためにクリーンな音声サンプルを選択するために使用された最小のDNSMOS値に比較的近い。 0.69
4. CONCLUSION 4.コンキュレーション 0.72
In this work, we presented DeepFilterNet2, a low-complexity speech enhancement framework. 本稿では,低複雑さ音声強調フレームワークDeepFilterNet2について述べる。 0.82
Taking advantage from DeepFilterNet’s perceptual approach, we were able to further apply several optimizations resulting in SOTA SE performance. DeepFilterNetの知覚的アプローチを活かして、さらにいくつかの最適化を施し、SOTA SEのパフォーマンスを実現しました。 0.67
Due to its lightweight architecture, it can be run on a Raspberry Pi 4 with a real-time factor of 0.42. 軽量なアーキテクチャであるため、ラズベリー・パイ4で動作でき、リアルタイムのファクタは 0.42 である。 0.70
In future work, we plan to extend the idea of speech enhancement to other enhancements, like correcting lowpass characteristics due to the current room environment. 今後の研究では、現在の室内環境による低域特性の補正など、音声強調の考え方を他の拡張にも拡張する予定である。 0.62
5. REFERENCES [1] Jean-Marc Valin, Umut Isik, Neerad Phansalkar, Ritwik Giri, Karim Helwani, and Arvindh Krishnaswamy, “A 5.参考文献 [1]Jean-Marc Valin, Umut Isik, Neerad Phansalkar, Ritwik Giri, Karim Helwani, Arvindh Krishnaswamy, “A 0.56
英語(論文から抽出)日本語訳スコア
Perceptually-Motivat ed Approach for Low-Complexity, Real-Time Enhancement of Fullband Speech,” in INTERSPEECH 2020, 2020. InterSPEECH 2020, 2020における「低複雑・リアルタイム音声強調のための知覚的動機付けアプローチ」 0.68
[2] Hendrik Schr¨oter, Alberto N Escalante-B, Tobias Rosenkranz, and Andreas Maier, “DeepFilterNet: A low complexity speech enhancement framework for fullband audio based on deep filtering,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) において、DeepFilterNet: ディープフィルタに基づくフルバンドオーディオのための低複雑性音声拡張フレームワーク。
訳抜け防止モード: 2 ] ヘンドリク・シュル・ショテル, アルベルト・n・エスカランテ - b, tobias rosenkranz, andreas maier, andreas maier, “deepfilternet: a low complexity speech enhancement framework for fullband audio based on deep filtering, ” in ieee international conference on acoustics,” (英語) 音声・信号処理(icssp)。
0.73
IEEE, 2022. IEEE、2022年。 0.76
[3] Shengkui Zhao, Bin Ma, Karn N Watcharasupat, and Woon-Seng Gan, “FRCRN: Boosting feature representation using frequency recurrence for monaural speech in IEEE International Conference on enhancement,” Acoustics, Speech and Signal Processing (ICASSP). [3]Shengkui Zhao, Bin Ma, Karn N Watcharasupat, Woon-Seng Gan, “FRCRN: Boosting feature representation using frequency repeatence for monaural speech in IEEE International Conference on enhancement, Acoustics, Speech and Signal Processing (ICASSP)”。
訳抜け防止モード: [3]神国蔵王、ビンマ、カルン・N・ウォラササット、 Woon - Seng Gan, “FRCRN: Boosting feature representation using frequency repeatence for monaural speech in IEEE International Conference on enhancement” と題されている。 音響・音声・信号処理(ICASSP)
0.73
IEEE, 2022. IEEE、2022年。 0.76
[4] Guochen Yu, Yuansheng Guan, Weixin Meng, Chengshi Zheng, and Hui Wang, “DMF-Net: A decoupling-style multi-band fusion model for real-time full-band speech enhancement,” arXiv preprint arXiv:2203.00472, 2022. [4]Guochen Yu, Yuansheng Guan, Weixin Meng, Chengshi Zheng, Hui Wang, “DMF-Net: A decoupling-style multi-band fusion model for real-time full-band speech enhancement, arXiv preprint arXiv:2203.00472, 2022”。
訳抜け防止モード: [4]グーチェンユ、ユアンシェン・グアン、ワイシン・メン、 Chengshi ZhengとHui Wangは、"DMF - Net : A Decoupling -style multi- band fusion model for real-time full - band speech enhancement"と述べている。 arXiv preprint arXiv:2203.00472 , 2022。
0.66
[5] Andong Li, Chengshi Zheng, Lu Zhang, and Xiaodong Li, “Glance and gaze: A collaborative learning framework for single-channel speech enhancement,” Applied Acoustics, vol. Andong Li, Chengshi Zheng, Lu Zhang, Xiaodong Li, “Glance and gaze: a collaborative learning framework for single- channel speech enhancement”, Applied Acoustics, vol。
訳抜け防止モード: [5 ]アンドン・リー、チェンジ・チェン、ル・チャン、 Xiaodong Li, “Glance and gaze: a collaborative learning framework for single- channel speech enhancement” 応用音響学専攻。
0.68
187, 2022. 187, 2022. 0.43
[6] Hendrik Schr¨oter, Tobias Rosenkranz, Alberto Escalante Banuelos, Marc Aubreville, and Andreas Maier, “CLCNet: Deep learning-based noise reduction for hearing aids using complex linear coding,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020. 6] hendrik schr soter, tobias rosenkranz, alberto escalante banuelos, marc aubreville, andreas maier, “clcnet: deep learning-based noise reduction for hearing aids using complex linear coding” ieee international conference on acoustics, speech and signal processing (icassp) 2020で発表された。
訳抜け防止モード: 6]ヘンドリク・シュル・ショテル、トビアス・ローゼンクランツ、アルベルト・エスカランテ・バヌエロス marc aubreville, andreas maier, andreas maier, "clcnet : deep learning-based noise reduction for hearing aids using complex linear coding" ieee international conference on acoustics, speech and signal processing (icassp)2020で発表。
0.67
[7] Wolfgang Mack and Emanu¨el AP Habets, “Deep Filtering: Signal Extraction and Reconstruction Using Complex Time-Frequency Filters,” IEEE Signal Processing Letters, vol. ディープフィルタ:複雑な時間周波数フィルタを用いた信号抽出と再構成”IEEE Signal Processing Letters, vol. IEEE Signal Processing Letters.[7] Wolfgang MackとEmanu sel AP Habets。 0.81
27, 2020. [8] Cassia Valentini-Botinhao, Xin Wang, Shinji Takaki, and Junichi Yamagishi, “Investigating RNN-based speech enhancement methods for noise-robust Text-toSpeech,” in SSW, 2016. 27, 2020. 8]Cassia Valentini-Botinhao, Xin Wang, Shinji Takaki, Yamagishi Junichi, “Investigating RNN-based speech enhancement method for noise-robust Text-toSpeech” in SSW, SSW, 2016
訳抜け防止モード: 27, 2020. [8]カッシア・ヴァレンティーニ-ボチニャオ、新王、高木真司 山岸順一「RNNに基づく音声強調手法の検討 - 頑健なテキスト - toSpeech」 SSW、2016年。
0.51
[9] Harishchandra Dubey, Vishak Gopal, Ross Cutler, Ashkan Aazami, Sergiy Matusevych, Sebastian Braun, Sefik Emre Eskimez, Manthan Thakker, Takuya Yoshioka, Hannes Gamper, et al , “ICASSP 2022 deep in IEEE International noise suppression challenge,” Conference on Acoustics, Speech and Signal Processing (ICASSP). 9]Harishchandra Dubey, Vishak Gopal, Ross Cutler, Ashkan Aazami, Sergiy Matusevych, Sebastian Braun, Sefik Emre Eskimez, Manthan Thakker, Taakuya Yoshioka, Hannes Gamper, et al , “ICASSP 2022 deep in IEEE International noise suppress Challenge” Conference on Acoustics, Speech and Signal Processing (ICASSP)。 0.40
IEEE, 2022. IEEE、2022年。 0.76
[10] Samuel L Smith, Pieter-Jan Kindermans, Chris Ying, and Quoc V Le, “Don’t decay the learning rate, increase the batch size,” arXiv preprint arXiv:1711.00489, 2017. 10] Samuel L Smith, Pieter-Jan Kindermans, Chris Ying, Quoc V Le, “学習率を損なうな,バッチサイズを増やせ” arXiv preprint arXiv:1711.00489, 2017
訳抜け防止モード: サミュエル・L・スミス (Samuel L Smith) 演 - ヤン・キンダーマンズ (Jan Kindermans) Chris Ying氏とQuoc V Le氏は,“学習速度を損なわないで下さい。 arXiv preprint arXiv:1711.00489, 2017
0.77
[11] Hyeong-Seok Choi, Sungjin Park, Jie Hwan Lee, Hoon Heo, Dongsuk Jeon, and Kyogu Lee, “Real-time denoising and dereverberation wtih tiny recurrent u-net,” in International Conference on Acoustics, Speech and Signal Processing (ICASSP). 国際音響・音声・信号処理会議(ICASSP)において,[11]Hyeong-Seok Choi, Sungjin Park, Jie Hwan Lee, Hoon Heo, Dongsuk Jeon, and Kyogu Lee, “Real-time denoising and dereverberation wtih small recurrent u-net” と題して発表した。 0.88
IEEE, 2021. IEEE、2021年。 0.81
[12] Chandan KA Reddy, Harishchandra Dubey, Kazuhito Koishida, Arun Nair, Vishak Gopal, Ross Cutler, Sebastian Braun, Hannes Gamper, Robert Aichner, and Sriram Srinivasan, “Interspeech 2021 deep noise suppression challenge,” in INTERSPEECH, 2021. 12]Chanddan KA Reddy, Harishchandra Dubey, Koishida Kazuhito, Arun Nair, Vishak Gopal, Ross Cutler, Sebastian Braun, Hannes Gamper, Robert Aichner, Sriram Srinivasan, “Interspeech 2021 Deep noise suppress Challenge” in InterSPEECH, 2021
訳抜け防止モード: [12]カ・チャンダン・レディ、ハリシャンドラ・デュビー、小石田一仁 Arun Nair, Vishak Gopal, Ross Cutler, Sebastian Braun Hannes Gamper氏、Robert Aichner氏、Sriram Srinivasan氏は、"2021年のディープノイズ抑制チャレンジ"について次のように述べている。 InterSPEECH, 2021年。
0.73
[13] Jean-Marc Valin, “A hybrid dsp/deep learning approach to real-time full-band speech enhancement,” in 2018 IEEE 20th international workshop on multimedia signal processing (MMSP). 13] jean-marc valin, “a hybrid dsp/deep learning approach to real-time full-band speech enhancement” in 2018 ieee 20th international workshop on multimedia signal processing (mmsp)
訳抜け防止モード: [13 ] Jean - Marc Valin, “リアルタイムフルバンド音声強調のためのハイブリッドdsp/ディープラーニングアプローチ” 2018年、IEEE 20th International Workshop on Multimedia Signal Processing (MMSP) に参加。
0.71
IEEE, 2018. 2018年、IEEE。 0.52
[14] Sebastian Braun, Hannes Gamper, Chandan KA Reddy, and Ivan Tashev, “Towards efficient models for realin IEEE International time deep noise suppression,” Conference on Acoustics, Speech and Signal Processing (ICASSP). 14] Sebastian Braun, Hannes Gamper, Chandan KA Reddy, Ivan Tashev, “Towards efficient model for realin IEEE International time deep noise suppress”, Conference on Acoustics, Speech and Signal Processing (ICASSP)。
訳抜け防止モード: 14]セバスチャン・ブラウン ハンネス・ギャンパー チャンダン・カ・レディー そしてivan tashev氏は、"ieeeの国際的な時間的深部ノイズ抑制のための効率的なモデルを目指して"。 international conference on acoustics, speech and signal processing (icassp) 参加報告
0.65
IEEE, 2021. IEEE、2021年。 0.81
[15] Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, and Lei Xie, “DCCRN: Deep complex convolution recurrent network for phase-aware speech enhancement,” in INTERSPEECH, 2020. [15]Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, Lei Xie, “DCCRN: Deep complex convolution recurrent network for phase-aware speech enhancement”, InterSPEECH, 2020。
訳抜け防止モード: [15 ]ヤンクシン・フー、ユン・リュー、シュボ・ルヴ、 Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, Lei Xie 「DCCRN : 位相認識音声強調のための深部複雑畳み込み再帰ネットワーク」 文部科学省、2020年。
0.67
[16] Shubo Lv, Yihui Fu, Mengtao Xing, Jiayao Sun, Lei Xie, Jun Huang, Yannan Wang, and Tao Yu, “SDCCRN: Super wide band dccrn with learnable complex feature for speech enhancement,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) において, [16] Shubo Lv, Yihui Fu, Mengtao Xing, Jiayao Sun, Lei Xie, Jun Huang, Yannan Wang, Tao Yu, “SDCCRN: Super wide band dccrn with learnable complex feature for speech enhancement” と題された。
訳抜け防止モード: 【16 年]周房lv、入封、満太興、 ジャヤオ・サン、レイ・シー、ジュン・フン、ヤンナン・ワン そしてtao yu, “sdccrn : super wide band dccrn with learnable complex feature for speech enhancement”。 ieee international conference on acoustics, speech and signal processing (icassp) にて発表。
0.61
IEEE, 2022. IEEE、2022年。 0.76
[17] Shubo Lv, Yanxin Hu, Shimin Zhang, and Lei Xie, “DCCRN+: Channel-wise Subband DCCRN with SNR Estimation for Speech Enhancement,” in INTERSPEECH, 2021. [17]Shubo Lv,Yanxin Hu,Shimin Zhang,Lei Xie, “DCCRN+: Channel-wise Subband DCCRN with SNR Estimation for Speech Enhancement”, InterSPEECH, 2021。
訳抜け防止モード: [17 ]周房 Lv,Yanxin Hu,Shimin Zhang, そしてLei Xie, “DCCRN+ : Channel - wise subband DCCRN with SNR Estimation for Speech Enhancement”。 InterSPEECH, 2021年。
0.79
[18] Jun Chen, Zilin Wang, Deyi Tuo, Zhiyong Wu, Shiyin Kang, and Helen Meng, “FullSubNet+: Channel attention fullsubnet with complex spectrograms for speech in IEEE International Conference on enhancement,” Acoustics, Speech and Signal Processing (ICASSP). [18]Jun Chen,Zilin Wang,Deyi Tuo,Zhiyong Wu,Shiyin Kang,Helen Meng, “FullSubNet+: Channel attention fullsubnet with complex spectrograms for speech in IEEE International Conference on enhancement”, Acoustics, Speech and Signal Processing (ICASSP)”。 0.40
IEEE, 2022. IEEE、2022年。 0.76
[19] ITU, “Wideband extension to Recommendation P.862 for the assessment of wideband telephone networks and speech codecs,” ITU-T Recommendation P.862.2, 2007. [19] ITU, “Wideband extension to Recommendation P.862 for the Assessment of wideband phone network and speech codecs”. ITU-T Recommendation P.862.2, 2007
訳抜け防止モード: [19 ]ITU,「広帯域電話ネットワークと音声コーデックの評価のための勧告P.862への広帯域拡張」 ITU - T Recommendation P.862.2 , 2007
0.78
[20] Cees H Taal, Richard C Hendriks, Richard Heusdens, and Jesper Jensen, “An algorithm for intelligibility prediction of time–frequency weighted noisy speech,” IEEE Transactions on Audio, Speech, and Language Processing, 2011. Cees H Taal, Richard C Hendriks, Richard Heusdens, Jesper Jensen, “An algorithm for intelligibility prediction of time– frequency weighted noisy speech”, IEEE Transactions on Audio, Speech, and Language Processing, 2011”.
訳抜け防止モード: 20] Cees H Taal, Richard C Hendriks, Richard Heusdens, そしてJesper Jensen氏は,“時間の知性予測のためのアルゴリズム – 周波数重み付けされた雑音のあるスピーチ”だ。 IEEE Transactions on Audio, Speech, and Language Processing, 2011
0.91
[21] Yi Hu and Philipos C Loizou, “Evaluation of objective quality measures for speech enhancement,” IEEE Transactions on audio, speech, and language processing, 2007. [21]Yi Hu,Philipos C Loizou, “Evaluation of objective quality measures for speech enhancement”, IEEE Transactions on audio, Speech, and Language Processing, 2007
訳抜け防止モード: [21]Yi Hu,Philipos C Loizou,「音声強調のための客観的品質尺度の評価」 IEEE Transactions on audio, speech, and language processing, 2007。
0.75
[22] Chandan KA Reddy, Vishak Gopal, and Ross Cutler, “Dnsmos p. 835: A non-intrusive perceptual objective speech quality metric to evaluate noise suppressors,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) において,[22] Chandan KA Reddy, Vishak Gopal, Ross Cutler, “Dnsmos p. 835: A non-intrusive perceptual objective speech quality metric to evaluate noise suppressor” と題された。
訳抜け防止モード: 【22】チャンダン・カ・レディ、ヴィシャク・ゴパル、ロス・カトラー dnsmos p. 835 : 非侵入的客観的音声品質指標 騒音抑制装置を評価する」 ieee international conference on acoustics, speech and signal processing (icassp) にて発表。
0.69
IEEE, 2022. IEEE、2022年。 0.76
           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。