論文の概要: EEG based Continuous Speech Recognition using Transformers
- arxiv url: http://arxiv.org/abs/2001.00501v3
- Date: Tue, 5 May 2020 05:50:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 20:32:29.870921
- Title: EEG based Continuous Speech Recognition using Transformers
- Title(参考訳): 変圧器を用いた脳波連続音声認識
- Authors: Gautam Krishna, Co Tran, Mason Carnahan, Ahmed H Tewfik
- Abstract要約: エンド・ツー・エンド・エンド・トランスフォーマーを用いた自動音声認識(ASR)モデルを用いて,脳波特徴量を用いた連続音声認識について検討した。
その結果, トランスフォーマーを用いたモデルでは, 繰り返しニューラルネットワーク(RNN)に基づくシーケンス・ツー・シーケンス脳波モデルと比較して, トレーニングの高速化が示されている。
- 参考スコア(独自算出の注目度): 13.565270550358397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we investigate continuous speech recognition using
electroencephalography (EEG) features using recently introduced end-to-end
transformer based automatic speech recognition (ASR) model. Our results
demonstrate that transformer based model demonstrate faster training compared
to recurrent neural network (RNN) based sequence-to-sequence EEG models and
better performance during inference time for smaller test set vocabulary but as
we increase the vocabulary size, the performance of the RNN based models were
better than transformer based model on a limited English vocabulary.
- Abstract(参考訳): 本稿では,最近導入されたエンドツーエンドトランスフォーマベース自動音声認識(asr)モデルを用いて,脳波を用いた連続音声認識について検討する。
以上の結果から,リカレントニューラルネットワーク(RNN)を用いたシーケンス・ツー・シーケンス脳波モデルと比較すると,より高速なトレーニングが可能であり,より小さなテストセット語彙に対する推論時間における性能が向上することが示唆された。
関連論文リスト
- Exploring Energy-based Language Models with Different Architectures and
Training Methods for Speech Recognition [23.970716487502273]
エネルギーベース言語モデル(ELM)は、自然文の非正規化分布をパラメータ化する。
本稿では,エネルギ関数の異なるアーキテクチャと異なるトレーニング手法について検討し,音声認識におけるEMMの能力について検討する。
論文 参考訳(メタデータ) (2023-05-22T03:28:48Z) - VQ-T: RNN Transducers using Vector-Quantized Prediction Network States [52.48566999668521]
本稿では,RNNトランスデューサの予測ネットワークにおけるベクトル量子化長短期記憶単位を提案する。
ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。
提案するVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-03T02:45:52Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Multitask Learning and Joint Optimization for Transformer-RNN-Transducer
Speech Recognition [13.198689566654107]
本稿では,マルチタスク学習,共同最適化,および変換器-RNN-トランスデューサシステムの共同復号法について検討する。
提案手法は, 単語誤り率(WER)を16.6 %, 13.3 %削減できることを示す。
論文 参考訳(メタデータ) (2020-11-02T06:38:06Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z) - Constrained Variational Autoencoder for improving EEG based Speech
Recognition Systems [3.5786621294068377]
本稿では、新しい制約付き損失関数を持つリカレントニューラルネットワーク(RNN)に基づく変分オートエンコーダ(VAE)モデルを提案する。
本研究では, 生の脳波特徴から生成された脳波特徴を用いて, 連続的および孤立的な音声認識システムを構築し, 実験を行った。
論文 参考訳(メタデータ) (2020-06-01T06:03:50Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。