論文の概要: Insights on Neural Representations for End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2205.09456v1
- Date: Thu, 19 May 2022 10:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-21 01:40:28.508691
- Title: Insights on Neural Representations for End-to-End Speech Recognition
- Title(参考訳): エンドツーエンド音声認識におけるニューラル表現の検討
- Authors: Anna Ollerenshaw, Md Asif Jalal, Thomas Hain
- Abstract要約: エンドツーエンド自動音声認識(ASR)モデルは、一般化された音声表現を学習することを目的としている。
相関解析手法を用いたネットワーク類似性の調査は、エンド・ツー・エンドASRモデルでは行われていない。
本稿では,CNN,LSTM,Transformerをベースとしたトレーニングにおいて,レイヤ間の内部ダイナミクスを解析し,検討する。
- 参考スコア(独自算出の注目度): 28.833851817220616
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: End-to-end automatic speech recognition (ASR) models aim to learn a
generalised speech representation. However, there are limited tools available
to understand the internal functions and the effect of hierarchical
dependencies within the model architecture. It is crucial to understand the
correlations between the layer-wise representations, to derive insights on the
relationship between neural representations and performance.
Previous investigations of network similarities using correlation analysis
techniques have not been explored for End-to-End ASR models. This paper
analyses and explores the internal dynamics between layers during training with
CNN, LSTM and Transformer based approaches using Canonical correlation analysis
(CCA) and centered kernel alignment (CKA) for the experiments. It was found
that neural representations within CNN layers exhibit hierarchical correlation
dependencies as layer depth increases but this is mostly limited to cases where
neural representation correlates more closely. This behaviour is not observed
in LSTM architecture, however there is a bottom-up pattern observed across the
training process, while Transformer encoder layers exhibit irregular
coefficiency correlation as neural depth increases. Altogether, these results
provide new insights into the role that neural architectures have upon speech
recognition performance. More specifically, these techniques can be used as
indicators to build better performing speech recognition models.
- Abstract(参考訳): エンドツーエンド自動音声認識(ASR)モデルは、一般化された音声表現を学習することを目的としている。
しかし、内部機能やモデルアーキテクチャにおける階層的依存関係の影響を理解するための限られたツールが存在する。
階層表現間の相関を理解することは、神経表現と性能の関係についての洞察を導き出すために重要である。
相関解析手法を用いたネットワーク類似性の調査は、エンド・ツー・エンドASRモデルでは行われていない。
本稿では,cnn,lstmおよびtransformerを用いたトレーニング中の層間のダイナミクスを,canonical correlation analysis(cca)およびcentered kernel alignment(cka)を用いて解析し,検討する。
cnn層内の神経表現は層深度が増大するにつれて階層的相関関係を示すが、神経表現がより密接に相関する場合に限られる。
この挙動はLSTMアーキテクチャでは観察されないが、トレーニングプロセス全体でボトムアップパターンが観察される一方、トランスフォーマーエンコーダ層は神経深度が増加するにつれて不規則なコ効率相関を示す。
これらの結果は、ニューラルアーキテクチャが音声認識性能に与える影響に関する新たな洞察を与えてくれる。
より具体的には、これらの技術はより良い音声認識モデルを構築するための指標として使用できる。
関連論文リスト
- Steinmetz Neural Networks for Complex-Valued Data [23.80312814400945]
並列実値デッツワークと結合出力からなるDNNを用いて複素値データを処理する新しい手法を提案する。
提案するアーキテクチャのクラスは、Steinmetz Neural Networksと呼ばれ、多視点学習を利用して、潜在空間内でより解釈可能な表現を構築する。
提案手法は,これらのネットワークがベンチマーク・データセットや合成例で実現した改良性能と付加雑音を示す数値実験である。
論文 参考訳(メタデータ) (2024-09-16T08:26:06Z) - Enhancing Cognitive Workload Classification Using Integrated LSTM Layers and CNNs for fNIRS Data Analysis [13.74551296919155]
本稿では、ディープラーニングモデルにおける畳み込みニューラルネットワーク(CNN)の有効性に対する長期記憶層の影響について検討する。
LSTMレイヤを統合することで、モデルがfNIRSデータ内の時間的依存関係をキャプチャし、認知状態をより包括的に理解することが可能になる。
論文 参考訳(メタデータ) (2024-07-22T11:28:34Z) - Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - Probing the Information Encoded in Neural-based Acoustic Models of
Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。
話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。
分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:43:53Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - Experimental Observations of the Topology of Convolutional Neural
Network Activations [2.4235626091331737]
トポロジカル・データ解析は、複雑な構造のコンパクトでノイズ・ロバストな表現を提供する。
ディープニューラルネットワーク(DNN)は、モデルアーキテクチャによって定義された一連の変換に関連する数百万のパラメータを学習する。
本稿では,画像分類に使用される畳み込みニューラルネットワークの解釈可能性に関する知見を得る目的で,TDAの最先端技術を適用した。
論文 参考訳(メタデータ) (2022-12-01T02:05:44Z) - Probing Statistical Representations For End-To-End ASR [28.833851817220616]
本稿では,SVCCAを用いたトランスフォーマーアーキテクチャにおけるドメイン間言語モデル依存性について検討する。
その結果, トランス層内の特定の神経表現は, 認識性能に影響を及ぼす相関挙動を示すことがわかった。
論文 参考訳(メタデータ) (2022-11-03T17:08:14Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。