論文の概要: Online Self-Attentive Gated RNNs for Real-Time Speaker Separation
- arxiv url: http://arxiv.org/abs/2106.13493v1
- Date: Fri, 25 Jun 2021 08:16:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 13:14:20.928750
- Title: Online Self-Attentive Gated RNNs for Real-Time Speaker Separation
- Title(参考訳): リアルタイム話者分離のためのオンライン自己認識型学習RNN
- Authors: Ori Kabeli, Yossi Adi, Zhenyu Tang, Buye Xu, Anurag Kumar
- Abstract要約: 我々は、非因果的状態分離モデルを因果的かつリアルタイムなモデルに変換し、その性能をオンラインとオフラインの両方の設定で評価する。
オンライン分離のためのステートフルな実装は、オフラインモデルと比較してパフォーマンスがわずかに低下し、モナラ入力の0.8dBとインプットの0.3dBがリアルタイムに0.65に到達した。
- 参考スコア(独自算出の注目度): 29.212834862338717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have recently shown great success in the task of blind
source separation, both under monaural and binaural settings. Although these
methods were shown to produce high-quality separations, they were mainly
applied under offline settings, in which the model has access to the full input
signal while separating the signal. In this study, we convert a non-causal
state-of-the-art separation model into a causal and real-time model and
evaluate its performance under both online and offline settings. We compare the
performance of the proposed model to several baseline methods under anechoic,
noisy, and noisy-reverberant recording conditions while exploring both monaural
and binaural inputs and outputs. Our findings shed light on the relative
difference between causal and non-causal models when performing separation. Our
stateful implementation for online separation leads to a minor drop in
performance compared to the offline model; 0.8dB for monaural inputs and 0.3dB
for binaural inputs while reaching a real-time factor of 0.65. Samples can be
found under the following link:
https://kwanum.github.io/sagrnnc-stream-results/.
- Abstract(参考訳): ディープニューラルネットワークは、モノラルとバイノーラルの両方の設定下で、ブラインドソース分離のタスクで大きな成功を収めた。
これらの手法は高品質な分離を実現することが示されているが、主にオフライン環境で適用され、モデルが信号分離中に全入力信号にアクセスできる。
本研究では,非因果的状態分離モデルを因果的かつリアルタイムなモデルに変換し,その性能をオンラインとオフラインの両方で評価する。
提案モデルの性能を無響・無響・無雑音・残響記録条件下での複数のベースライン法と比較し,両耳入力と出力について検討した。
分離時の因果モデルと非因果モデルとの相対的差異について検討した。
オンライン分離のためのステートフルな実装は,オフラインモデルに比べてパフォーマンスが低下し,モノラル入力は0.8dB,バイノーラル入力は0.3dBとなり,リアルタイム係数0.65に達した。
https://kwanum.github.io/sagrnnc-stream-results/。
関連論文リスト
- Robustness of Speech Separation Models for Similar-pitch Speakers [14.941946672578863]
単一チャンネル音声分離は,マルチスピーカ環境における音声認識システムを強化する上で重要な課題である。
本稿では,話者間のピッチ差が最小限である場合における最先端ニューラルネットワークモデルのロバスト性について検討する。
論文 参考訳(メタデータ) (2024-07-22T15:55:08Z) - Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation [15.29891397291197]
そこで本研究では,各単一モーダルモデルを用いて,各モーダルモデルに対して協調的に適切なサンプルを生成する手法を提案する。
理論的には、このガイダンスは最適判別器の勾配によって計算可能であることを示す。
いくつかのベンチマークデータセットに対する実験的な評価により,本手法は比較的少数のパラメータで単一モードの忠実度と複数モードのアライメントを改善していることが示された。
論文 参考訳(メタデータ) (2024-05-28T05:43:03Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Training a Deep Neural Network via Policy Gradients for Blind Source
Separation in Polyphonic Music Recordings [1.933681537640272]
音響信号における楽器の音の盲点分離法を提案する。
パラメトリックモデルを用いて個々の音色を記述し、辞書を訓練し、高調波の相対振幅を捉える。
提案アルゴリズムは,様々な音声サンプルに対して,特に低干渉で高品質な結果が得られる。
論文 参考訳(メタデータ) (2021-07-09T06:17:04Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。