論文の概要: Thank you for Attention: A survey on Attention-based Artificial Neural
Networks for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2102.07259v1
- Date: Sun, 14 Feb 2021 22:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:29:10.814949
- Title: Thank you for Attention: A survey on Attention-based Artificial Neural
Networks for Automatic Speech Recognition
- Title(参考訳): 注意:自動音声認識のための注意に基づく人工ニューラルネットワークに関する調査
- Authors: Priyabrata Karmakar, Shyh Wei Teng, Guojun Lu
- Abstract要約: 注意力は、ニューラルネットワークに基づくシーケンシャル・ツー・シーケンスモデルにおいて、非常に一般的かつ効果的なメカニズムである。
オフラインおよびストリーミング音声認識のための注目モデルの開発と進化に焦点を当てている。
- 参考スコア(独自算出の注目度): 4.542616945567623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention is a very popular and effective mechanism in artificial neural
network-based sequence-to-sequence models. In this survey paper, a
comprehensive review of the different attention models used in developing
automatic speech recognition systems is provided. The paper focuses on the
development and evolution of attention models for offline and streaming speech
recognition within recurrent neural network- and Transformer- based
architectures.
- Abstract(参考訳): 注意力は、ニューラルネットワークに基づくシーケンシャル・ツー・シーケンスモデルにおいて、非常に一般的かつ効果的なメカニズムである。
本研究では,自動音声認識システムの開発に用いるさまざまな注意モデルについて総合的に検討する。
本論文では、ニューラルネットワークおよびトランスフォーマーベースのリカレントアーキテクチャにおけるオフラインおよびストリーミング音声認識のための注目モデルの開発と進化に焦点を当てる。
関連論文リスト
- Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - Deep Neural Networks for Automatic Speaker Recognition Do Not Learn
Supra-Segmental Temporal Features [2.724035499453558]
本稿では,話者認識のための最先端ニューラルネットワークの性能が,SSTのモデル化によってどの程度説明できるかを定量化するための新しいテストを提案し,適用する。
話者認識のための様々なCNNおよびRNNベースのニューラルネットワークアーキテクチャは、強制してもSSTを十分な程度にモデル化していない。
論文 参考訳(メタデータ) (2023-11-01T12:45:31Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Contrastive-Signal-Dependent Plasticity: Self-Supervised Learning in Spiking Neural Circuits [61.94533459151743]
この研究は、スパイキングネットワークのシナプスを調整するための神経生物学的に動機づけられたスキームを設計することの課題に対処する。
我々の実験シミュレーションは、繰り返しスパイクネットワークを訓練する際、他の生物学的に証明可能なアプローチに対して一貫した優位性を示す。
論文 参考訳(メタデータ) (2023-03-30T02:40:28Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Full-Reference Speech Quality Estimation with Attentional Siamese Neural
Networks [0.0]
深層学習アプローチを用いた完全参照音声品質予測モデルを提案する。
モデルは、シームス繰り返し畳み込みネットワークを介して参照と劣化した信号の特徴表現を決定する。
得られた特徴は、信号と注意機構を合わせるために使用され、最後に合成され、音声の全体的な品質を推定する。
論文 参考訳(メタデータ) (2021-05-03T12:38:25Z) - Adaptation Algorithms for Neural Network-Based Speech Recognition: An
Overview [43.12352697785169]
本稿では,ニューラルネットワークを用いた音声認識のための適応アルゴリズムについて概説する。
この概要は、埋め込み、モデルパラメータ適応、データ拡張に基づく適応アルゴリズムを特徴付ける。
本稿では,本論文で報告されているような相対誤差率の低減に基づく音声認識適応アルゴリズムの性能のメタ分析を行う。
論文 参考訳(メタデータ) (2020-08-14T21:50:03Z) - Visual Pattern Recognition with on On-chip Learning: towards a Fully
Neuromorphic Approach [10.181725314550823]
ニューロモルフィックハードウェア上でのオンチップ学習による視覚パターン認識のためのスパイキングニューラルネットワーク(SNN)を提案する。
このネットワークは、ダイナミック・ビジョン・センサーによって知覚される水平と垂直のバーからなる単純な視覚パターンを学習することができることを示す。
認識中、ネットワークはパターンのアイデンティティを分類し、同時にその位置とスケールを推定する。
論文 参考訳(メタデータ) (2020-08-08T08:07:36Z) - Multi-modal Automated Speech Scoring using Attention Fusion [46.94442359735952]
本稿では,非母国英語話者の自発音声の自動評価のための,多モーダルなエンドツーエンドニューラルアプローチを提案する。
我々は、スペクトルや転写から音響的および語彙的手がかりを符号化するために、双方向のリカレント畳み込みニューラルネットワークと双方向長短期記憶ニューラルネットワークを用いる。
語彙と音響の両方への注意が組み合わさってシステム全体の性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2020-05-17T07:53:15Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Intrinsic Motivation and Episodic Memories for Robot Exploration of
High-Dimensional Sensory Spaces [0.0]
本研究では,マイクロファーミングロボットの画像センサのための好奇心駆動型目標指向探索行動を生成するアーキテクチャを提案する。
画像から低次元特徴をオフラインで教師なしで学習するためのディープニューラルネットワークと、システムの逆および前方運動学を表す浅層ニューラルネットワークのオンライン学習の組み合わせが用いられている。
人工好奇心システムは、予め定義された目標のセットに関心値を割り当て、学習の進捗を最大化すると予想される目標への探索を促進する。
論文 参考訳(メタデータ) (2020-01-07T11:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。