論文の概要: Adaptation Algorithms for Neural Network-Based Speech Recognition: An
Overview
- arxiv url: http://arxiv.org/abs/2008.06580v2
- Date: Sun, 28 Feb 2021 19:41:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 17:46:47.045213
- Title: Adaptation Algorithms for Neural Network-Based Speech Recognition: An
Overview
- Title(参考訳): ニューラルネットワークに基づく音声認識のための適応アルゴリズム:概要
- Authors: Peter Bell, Joachim Fainberg, Ondrej Klejch, Jinyu Li, Steve Renals,
Pawel Swietojanski
- Abstract要約: 本稿では,ニューラルネットワークを用いた音声認識のための適応アルゴリズムについて概説する。
この概要は、埋め込み、モデルパラメータ適応、データ拡張に基づく適応アルゴリズムを特徴付ける。
本稿では,本論文で報告されているような相対誤差率の低減に基づく音声認識適応アルゴリズムの性能のメタ分析を行う。
- 参考スコア(独自算出の注目度): 43.12352697785169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a structured overview of adaptation algorithms for neural
network-based speech recognition, considering both hybrid hidden Markov model /
neural network systems and end-to-end neural network systems, with a focus on
speaker adaptation, domain adaptation, and accent adaptation. The overview
characterizes adaptation algorithms as based on embeddings, model parameter
adaptation, or data augmentation. We present a meta-analysis of the performance
of speech recognition adaptation algorithms, based on relative error rate
reductions as reported in the literature.
- Abstract(参考訳): 本稿では,話者適応,ドメイン適応,アクセント適応に焦点をあてた,ハイブリッド型隠れマルコフモデル/ニューラルネットワークシステムとエンドツーエンドニューラルネットワークシステムの両方を考慮した,ニューラルネットワークに基づく音声認識のための適応アルゴリズムの構造化概要を示す。
この概要は、埋め込み、モデルパラメータ適応、データ拡張に基づく適応アルゴリズムを特徴付ける。
本稿では,本論文で報告した相対誤差率低減に基づく音声認識適応アルゴリズムの性能のメタ解析を行う。
関連論文リスト
- Neural Speech and Audio Coding [19.437080345021105]
本稿では,ニューラル音声および音声符号化システムの領域におけるモデルベースおよびデータ駆動型アプローチの統合について検討する。
既存のコーデックの出力を後処理するように設計されたニューラルネットワークベースの信号エンハンサーを導入している。
本稿では、精神音響学的に校正された損失関数を用いて、エンドツーエンドのニューラルオーディオコーデックを訓練する方法について検討する。
論文 参考訳(メタデータ) (2024-08-13T15:13:21Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - Training neural networks with structured noise improves classification and generalization [0.0]
ノイズの多いトレーニングデータに構造を加えることで,アルゴリズムの性能が大幅に向上することを示す。
また,Hebbian Unlearning(ヘビアン・アンラーニング・ルール)と呼ばれる規則は,雑音が最大値である場合のトレーニング・ウィズ・ノイズ・アルゴリズムと一致することを証明した。
論文 参考訳(メタデータ) (2023-02-26T22:10:23Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Full-Reference Speech Quality Estimation with Attentional Siamese Neural
Networks [0.0]
深層学習アプローチを用いた完全参照音声品質予測モデルを提案する。
モデルは、シームス繰り返し畳み込みネットワークを介して参照と劣化した信号の特徴表現を決定する。
得られた特徴は、信号と注意機構を合わせるために使用され、最後に合成され、音声の全体的な品質を推定する。
論文 参考訳(メタデータ) (2021-05-03T12:38:25Z) - Sparse Mixture of Local Experts for Efficient Speech Enhancement [19.645016575334786]
本稿では,専門的ニューラルネットワークの効率的なアンサンブルを通して,音声を聴覚的に認識するためのディープラーニング手法について検討する。
タスクを重複しないサブプロブレムに分割することで、計算複雑性を低減しつつ、デノナイジング性能を向上させることができる。
以上の結果から,微調整されたアンサンブルネットワークは,一般のネットワークの発声能力を上回ることができることがわかった。
論文 参考訳(メタデータ) (2020-05-16T23:23:22Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Parallelization Techniques for Verifying Neural Networks [52.917845265248744]
検証問題に基づくアルゴリズムを反復的に導入し、2つの分割戦略を探索する。
また、ニューラルネットワークの検証問題を単純化するために、ニューロンアクティベーションフェーズを利用する、高度に並列化可能な前処理アルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-04-17T20:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。