論文の概要: Improving Character Error Rate Is Not Equal to Having Clean Speech:
Speech Enhancement for ASR Systems with Black-box Acoustic Models
- arxiv url: http://arxiv.org/abs/2110.05968v1
- Date: Tue, 12 Oct 2021 12:51:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 14:42:23.895518
- Title: Improving Character Error Rate Is Not Equal to Having Clean Speech:
Speech Enhancement for ASR Systems with Black-box Acoustic Models
- Title(参考訳): 文字誤り率の向上はクリーン音声と同等ではない:ブラックボックス音響モデルを用いたasrシステムの音声強調
- Authors: Ryosuke Sawata, Yosuke Kashiwagi and Shusuke Takahashi
- Abstract要約: 本稿では,ディープニューラルネットワーク(DNN)に基づく音声強調(SE)を提案する。
提案手法は2つのDNNを用いており、1つは音声処理用、もう1つは音響モデル(AM)による出力CERを模倣する。
実験の結果,一定の雑音レベルを維持しながら,ブラックボックスAMによるCERの相対値が7.3%向上したことがわかった。
- 参考スコア(独自算出の注目度): 1.6328866317851185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A deep neural network (DNN)-based speech enhancement (SE) aiming to maximize
the performance of an automatic speech recognition (ASR) system is proposed in
this paper. In order to optimize the DNN-based SE model in terms of the
character error rate (CER), which is one of the metric to evaluate the ASR
system and generally non-differentiable, our method uses two DNNs: one for
speech processing and one for mimicking the output CERs derived through an
acoustic model (AM). Then both of DNNs are alternately optimized in the
training phase. Even if the AM is a black-box, e.g., like one provided by a
third-party, the proposed method enables the DNN-based SE model to be optimized
in terms of the CER since the DNN mimicking the AM is differentiable.
Consequently, it becomes feasible to build CER-centric SE model that has no
negative effect, e.g., additional calculation cost and changing network
architecture, on the inference phase since our method is merely a training
scheme for the existing DNN-based methods. Experimental results show that our
method improved CER by 7.3% relative derived through a black-box AM although
certain noise levels are kept.
- Abstract(参考訳): 本稿では,音声認識システム(ASR)の性能を最大化するためのディープニューラルネットワーク(DNN)に基づく音声強調(SE)を提案する。
ASRシステムを評価するための指標の1つである文字誤り率(CER)の観点からDNNベースのSEモデルを最適化するために,本手法では,音声処理用と音響モデル(AM)による出力CERを模倣する2つのDNNを用いる。
そして、両方のDNNがトレーニングフェーズで交互に最適化されます。
例えば、サードパーティが提供するようなブラックボックスであっても、DNNを模倣するDNNが微分可能であるため、提案手法はCERの観点からDNNベースのSEモデルを最適化することができる。
その結果,提案手法は既存のDNN手法のトレーニングスキームに過ぎないため,新たな計算コストやネットワークアーキテクチャの変更など,負の効果のないCER中心のSEモデルを構築することが可能になった。
実験の結果,一定の雑音レベルを維持しながら,ブラックボックスAMによるCERの相対値が7.3%向上したことがわかった。
関連論文リスト
- Enhancing Deep Neural Network Training Efficiency and Performance through Linear Prediction [0.0]
ディープニューラルネットワーク(DNN)は、コンピュータビジョンや自然言語処理など、さまざまな分野で大きな成功を収めている。
本稿では,DNNの学習効率を最適化する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T03:11:30Z) - Integrate Lattice-Free MMI into End-to-End Speech Recognition [87.01137882072322]
音声認識(ASR)研究において、識別基準はDNN-HMMシステムにおいて優れた性能を達成している。
このモチベーションにより、差別的基準の採用は、エンドツーエンド(E2E)のASRシステムの性能を高めることを約束している。
これまでの研究は、最小ベイズリスク(MBR、差別基準の一つ)をE2E ASRシステムに導入してきた。
本研究では,他の広く使われている識別基準であるLF-MMIをE2Eに統合する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-29T14:32:46Z) - A Mixture of Expert Based Deep Neural Network for Improved ASR [4.993304210475779]
MixNetは、音声認識(ASR)における音響モデルのための新しいディープラーニングアーキテクチャである
自然言語では、異なる音響クラスにまたがる分布の重複は避けられないため、クラス間の誤分類につながる。
提案手法は,単語誤り率の13.6%と10.0%を相対的に削減できることを示す。
論文 参考訳(メタデータ) (2021-12-02T07:26:34Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - DNN-Based Semantic Model for Rescoring N-best Speech Recognition List [8.934497552812012]
自動音声認識(ASR)システムの単語誤り率(WER)は、トレーニングと騒音等によるテスト条件とのミスマッチが発生した場合に増加する。
本研究の目的は、歪み音の特徴を補うための長期意味関係をモデル化することで、ASRを改善することである。
論文 参考訳(メタデータ) (2020-11-02T13:50:59Z) - Attention Driven Fusion for Multi-Modal Emotion Recognition [39.295892047505816]
本稿では,感情分類のためのテキストと音響データを活用・融合するための深層学習に基づくアプローチを提案する。
我々は、帯域通過フィルタを用いたパラメータ化シンク関数に基づくSincNet層を用いて、生音声から音響特徴を抽出し、DCNNで処理する。
テキスト処理では,N-gramレベルの相関を推定するために,2つの分岐(DCNNとBi-direction RNNとDCNN)を並列に使用する。
論文 参考訳(メタデータ) (2020-09-23T08:07:58Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。