論文の概要: Harmonicity Plays a Critical Role in DNN Based Versus in
Biologically-Inspired Monaural Speech Segregation Systems
- arxiv url: http://arxiv.org/abs/2203.04420v1
- Date: Tue, 8 Mar 2022 21:51:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 15:21:51.791737
- Title: Harmonicity Plays a Critical Role in DNN Based Versus in
Biologically-Inspired Monaural Speech Segregation Systems
- Title(参考訳): DNNに基づく音声合成システムにおける高調波の役割
- Authors: Rahil Parikh (1), Ilya Kavalerov (2), Carol Espy-Wilson (1), Shihab
Shamma (1) ((1) Institute for Systems Research, University of Maryland, (2)
Google Inc.)
- Abstract要約: 本研究では,DNNベースのモデルであるConv-TasNetとDPT-Netにおける調和性の役割を分析する。
本研究は,高調波がわずかに発振される自然音声とわずかに操作された不調和音声との混合による性能評価を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in deep learning have led to drastic improvements in
speech segregation models. Despite their success and growing applicability, few
efforts have been made to analyze the underlying principles that these networks
learn to perform segregation. Here we analyze the role of harmonicity on two
state-of-the-art Deep Neural Networks (DNN)-based models- Conv-TasNet and
DPT-Net. We evaluate their performance with mixtures of natural speech versus
slightly manipulated inharmonic speech, where harmonics are slightly frequency
jittered. We find that performance deteriorates significantly if one source is
even slightly harmonically jittered, e.g., an imperceptible 3% harmonic jitter
degrades performance of Conv-TasNet from 15.4 dB to 0.70 dB. Training the model
on inharmonic speech does not remedy this sensitivity, instead resulting in
worse performance on natural speech mixtures, making inharmonicity a powerful
adversarial factor in DNN models. Furthermore, additional analyses reveal that
DNN algorithms deviate markedly from biologically inspired algorithms that rely
primarily on timing cues and not harmonicity to segregate speech.
- Abstract(参考訳): 近年のディープラーニングの進歩は、音声分離モデルの大幅な改善につながっている。
その成功と適用性の拡大にもかかわらず、これらのネットワークが分離を行うために学習する基礎となる原則を分析する努力はほとんど行われていない。
本稿では、DNNベースのモデルであるConv-TasNetとDPT-Netにおける調和性の役割を分析する。
和音がわずかに振動する非調和音声に対して, 自然音声の混合による性能評価を行った。
例えば、受容不能な3%の高調波ジッタは、15.4dBから0.70dBまでのConv-TasNetの性能を劣化させる。
非調和音声のモデルの訓練は、この感度を改善せず、代わりに自然音声の混合の性能が悪化し、非調和性はDNNモデルにおいて強力な敵対要因となる。
さらに、DNNアルゴリズムは、生物学的にインスパイアされたアルゴリズムから著しく逸脱し、主にタイミングの手がかりに依存し、発声の分離に調和性がないことが明らかとなった。
関連論文リスト
- A Simple and Yet Fairly Effective Defense for Graph Neural Networks [18.140756786259615]
グラフニューラルネットワーク(GNN)は、グラフ構造化データ上での機械学習の主要なアプローチとして登場した。
既存の対向性摂動に対する防御法は、時間的複雑さに悩まされている。
本稿では,ノイズを基礎となるモデルのアーキテクチャに組み込む新しい防御手法であるNoisyGNNを紹介する。
論文 参考訳(メタデータ) (2024-02-21T18:16:48Z) - Evaluating Similitude and Robustness of Deep Image Denoising Models via
Adversarial Attack [60.40356882897116]
ディープニューラルネットワーク(DNN)は、従来の画像復調アルゴリズムよりも優れたパフォーマンスを示している。
本稿では,現在のディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディープ・ディナイジング・PGD(Denoising-PGD)と名づけられた敵攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-06-28T09:30:59Z) - Dynamics-Aware Loss for Learning with Label Noise [73.75129479936302]
ディープニューラルネットワーク(DNN)にラベルノイズが深刻な脅威をもたらす
本稿では,この問題を解決するためにDAL(Dynamics-Aware Los)を提案する。
詳細な理論的解析と広範な実験結果の両方が,本手法の優位性を示している。
論文 参考訳(メタデータ) (2023-03-21T03:05:21Z) - Unifying Speech Enhancement and Separation with Gradient Modulation for
End-to-End Noise-Robust Speech Separation [23.758202121043805]
本稿では,音声の強調と分離を勾配変調で統一し,ノイズ・ロバスト性を改善する新しいネットワークを提案する。
実験結果から,大規模Libri2Mix-およびLibri3Mix-noisyデータセットの最先端化が得られた。
論文 参考訳(メタデータ) (2023-02-22T03:54:50Z) - Novel Hybrid DNN Approaches for Speaker Verification in Emotional and
Stressful Talking Environments [1.0998375857698495]
この研究は、深層モデルと浅いアーキテクチャを組み合わせることで、新しいハイブリッド分類器を生み出した。
ディープニューラルネットワーク隠れマルコフモデル(DNN-HMM)、ディープニューラルネットワーク-ガウス混合モデル(DNN-GMM)、隠れマルコフモデル-ディープニューラルネットワーク(HMM-DNN)の4つの異なるハイブリッドモデルが利用された。
その結果、HMM-DNNは、EER(Equal error rate)およびAUC(Equal curve)評価指標で他の全てのハイブリッドモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-12-26T10:47:14Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - DNN-Based Semantic Model for Rescoring N-best Speech Recognition List [8.934497552812012]
自動音声認識(ASR)システムの単語誤り率(WER)は、トレーニングと騒音等によるテスト条件とのミスマッチが発生した場合に増加する。
本研究の目的は、歪み音の特徴を補うための長期意味関係をモデル化することで、ASRを改善することである。
論文 参考訳(メタデータ) (2020-11-02T13:50:59Z) - Weight-Covariance Alignment for Adversarially Robust Neural Networks [15.11530043291188]
本稿では,対人訓練に頼らずに最先端のパフォーマンスを実現する新しいSNNを提案する。
既存のSNNは学習あるいは手動等方性雑音を注入するが、SNNは異方性雑音分布を学習し、対向的ロバスト性に対する学習理論境界を最適化する。
論文 参考訳(メタデータ) (2020-10-17T19:28:35Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and
Solutions [73.45995446500312]
ストリーミングおよび非ストリーミングリカレントニューラルネットワークトランスデューサ(RNN-T)のエンド・ツー・エンドモデルにおける一般化特性を解析した。
トレーニング中に複数の正規化手法を組み合わせる方法と,動的重複推論を用いる方法を提案する。
論文 参考訳(メタデータ) (2020-05-07T06:24:47Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。