論文の概要: Fast Classification Learning with Neural Networks and Conceptors for
Speech Recognition and Car Driving Maneuvers
- arxiv url: http://arxiv.org/abs/2102.05588v1
- Date: Wed, 10 Feb 2021 17:36:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 14:24:48.911794
- Title: Fast Classification Learning with Neural Networks and Conceptors for
Speech Recognition and Car Driving Maneuvers
- Title(参考訳): ニューラルネットワークを用いた高速分類学習と音声認識と自動車運転支援のための概念
- Authors: Stefanie Krause, Oliver Otto, Frieder Stolzenburg
- Abstract要約: リカレントニューラルネットワークは、多様なアプリケーションにおいて強力な手段である。
我々は,いわゆる概念家とともに,他の深層学習法とは対照的に,学習の高速化を図っている。
音声認識と自動車運転操作の検出という2つの応用でこれを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recurrent neural networks are a powerful means in diverse applications. We
show that, together with so-called conceptors, they also allow fast learning,
in contrast to other deep learning methods. In addition, a relatively small
number of examples suffices to train neural networks with high accuracy. We
demonstrate this with two applications, namely speech recognition and detecting
car driving maneuvers. We improve the state-of-the art by application-specific
preparation techniques: For speech recognition, we use mel frequency cepstral
coefficients leading to a compact representation of the frequency spectra, and
detecting car driving maneuvers can be done without the commonly used
polynomial interpolation, as our evaluation suggests.
- Abstract(参考訳): リカレントニューラルネットワークは、多様なアプリケーションにおいて強力な手段です。
我々は,いわゆる概念家とともに,他の深層学習法とは対照的に,学習の高速化を図っている。
さらに、比較的少数の例は、高精度でニューラルネットワークを訓練するのに十分です。
音声認識と自動車運転操作の検出という2つの応用でこれを実証する。
音声認識には、周波数スペクトルのコンパクトな表現につながるメル周波数セプストラム係数を使用し、一般的な多項式補間なしに車の運転操作を検出することができます。
関連論文リスト
- Keyword spotting -- Detecting commands in speech using deep learning [2.709166684084394]
生波形をMel Frequency Cepstral Coefficients (MFCC)に変換することで特徴工学を実現する。
実験では, BiLSTM と Attention を用いた RNN が 93.9% の精度で最高の性能を達成した。
論文 参考訳(メタデータ) (2023-12-09T19:04:17Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - Collaborative Distillation in the Parameter and Spectrum Domains for
Video Action Recognition [79.60708268515293]
本稿では,行動認識のための小型かつ効率的なネットワークの訓練方法について検討する。
周波数領域における2つの蒸留戦略,すなわち特徴スペクトルとパラメータ分布蒸留を提案する。
提案手法は,同じバックボーンを持つ最先端の手法よりも高い性能を実現することができる。
論文 参考訳(メタデータ) (2020-09-15T07:29:57Z) - TinySpeech: Attention Condensers for Deep Speech Recognition Neural
Networks on Edge Devices [71.68436132514542]
エッジ上でのオンデバイス音声認識のための低フットプリント,高効率深層ニューラルネットワーク構築のためのアテンションコンデンサの概念を紹介する。
その有効性を説明するために,デバイス上での音声認識に適した低精度深層ニューラルネットワークTinySpeechを導入する。
論文 参考訳(メタデータ) (2020-08-10T16:34:52Z) - Untangling in Invariant Speech Recognition [17.996356271398295]
我々は、音声を認識するために訓練されたニューラルネットワークの中で、情報を解き放つ方法を研究する。
話者固有のニュアンス変動はネットワーク階層によって排除されるのに対し、タスク関連特性は後続の層で解消される。
計算の各段階におけるタスク関連特徴を効率よく抽出することにより,深部表現が時間的アンハングリングを行うことがわかった。
論文 参考訳(メタデータ) (2020-03-03T20:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。