論文の概要: Stabilising and accelerating light gated recurrent units for automatic
speech recognition
- arxiv url: http://arxiv.org/abs/2302.10144v1
- Date: Thu, 16 Feb 2023 16:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 14:37:59.098658
- Title: Stabilising and accelerating light gated recurrent units for automatic
speech recognition
- Title(参考訳): 自動音声認識のための光ゲートリカレントユニットの安定化と高速化
- Authors: Adel Moumen, Titouan Parcollet
- Abstract要約: 光ゲートリカレントユニット(Li-GRU)は自動音声認識(ASR)タスクにおいて印象的な結果が得られることで有名である。
本稿では,その安定性と,トレーニング時間の5倍のスピードアップを実現するための工学的メカニズムを理論的,実証的に導出する。
我々は,新たに獲得した能力を示す玩具タスクと,単語誤り率の低下を示す3種類のASRデータセットを用いて,その性能を評価する。
- 参考スコア(独自算出の注目度): 14.06965803750859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The light gated recurrent units (Li-GRU) is well-known for achieving
impressive results in automatic speech recognition (ASR) tasks while being
lighter and faster to train than a standard gated recurrent units (GRU).
However, the unbounded nature of its rectified linear unit on the candidate
recurrent gate induces an important gradient exploding phenomenon disrupting
the training process and preventing it from being applied to famous datasets.
In this paper, we theoretically and empirically derive the necessary conditions
for its stability as well as engineering mechanisms to speed up by a factor of
five its training time, hence introducing a novel version of this architecture
named SLi-GRU. Then, we evaluate its performance both on a toy task
illustrating its newly acquired capabilities and a set of three different ASR
datasets demonstrating lower word error rates compared to more complex
recurrent neural networks.
- Abstract(参考訳): ライトゲートリカレントユニット(Li-GRU)は、標準ゲートリカレントユニット(GRU)よりも軽量で高速でありながら、自動音声認識(ASR)タスクにおける印象的な結果を達成することで有名である。
しかし、その整列された線形ユニットの候補再帰ゲート上の非有界性は、トレーニング過程を乱す重要な勾配爆発現象を誘発し、有名なデータセットに適用されないようにする。
本稿では,その安定性に必要な条件を理論的に経験的に導出するとともに,その5倍の速さで高速化する工学的機構を導出し,sli-gruと呼ばれる新しいアーキテクチャを導入する。
次に,新たに獲得した機能を示すtoyタスクと,より複雑なリカレントニューラルネットワークと比較して単語誤り率の低い3つのasrデータセットの両方について,その性能を評価する。
関連論文リスト
- LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration [62.3751291442432]
高速なオールインワン画像復元を実現するために,コンパクトな低ランクの専門家を動的に活用する,フレキシブルなフレームワークであるLoRA-IRを提案する。
LoRA-IRは、劣化誘導前訓練とパラメータ効率の良い微調整の2つの訓練段階で構成されている。
実験により、LoRA-IRは計算効率を維持しつつ、14のIRタスクと29のベンチマークでSOTA性能を達成することが示された。
論文 参考訳(メタデータ) (2024-10-20T13:00:24Z) - Delayed Memory Unit: Modelling Temporal Dependency Through Delay Gate [16.4160685571157]
リカレントニューラルネットワーク(RNN)は、時間的依存をモデル化する能力で広く認識されている。
本稿では、ゲートRNNのための新しい遅延メモリユニット(DMU)を提案する。
DMUは遅延線構造と遅延ゲートをバニラRNNに組み込み、時間的相互作用を高め、時間的信用割り当てを容易にする。
論文 参考訳(メタデータ) (2023-10-23T14:29:48Z) - Gated Recurrent Neural Networks with Weighted Time-Delay Feedback [59.125047512495456]
重み付き時間遅延フィードバック機構を備えた新しいゲートリカレントユニット(GRU)を導入する。
我々は、$tau$-GRUが、最先端のリカレントユニットやゲート型リカレントアーキテクチャよりも早く収束し、より一般化できることを示します。
論文 参考訳(メタデータ) (2022-12-01T02:26:34Z) - Heterogeneous Reservoir Computing Models for Persian Speech Recognition [0.0]
Reservoir Computing Model (RC)モデルは、トレーニングに安価であること、パラメータが大幅に少なく、創発的なハードウェア技術と互換性があることが証明されている。
異なるスケールで時間的コンテキストをキャプチャする入力の非線形変換を生成するために、異種単層および多層ESNを提案する。
論文 参考訳(メタデータ) (2022-05-25T09:15:15Z) - Model-based Deep Learning Receiver Design for Rate-Splitting Multiple
Access [65.21117658030235]
本研究では,モデルベース深層学習(MBDL)に基づく実用的なRSMA受信機の設計を提案する。
MBDL受信機は、符号なしシンボル誤り率(SER)、リンクレベルシミュレーション(LLS)によるスループット性能、平均トレーニングオーバーヘッドの観点から評価される。
その結果,MBDLはCSIRが不完全なSIC受信機よりも優れていた。
論文 参考訳(メタデータ) (2022-05-02T12:23:55Z) - SynthASR: Unlocking Synthetic Data for Speech Recognition [15.292920497489925]
そこで本研究では,ASRモデルトレーニングのためのデータが少ない,あるいは取得が困難なアプリケーションにおいて,合成音声をASRトレーニング(SynthASR)に活用することを提案する。
薬物名認識のための新しい応用のための社内データセットを用いて実験を行ったところ、合成音声を用いたASR RNN-Tモデルのトレーニングにより、新しいアプリケーションの認識性能が65%以上向上した。
論文 参考訳(メタデータ) (2021-06-14T23:26:44Z) - Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning
with Self-Knowledge Distillation [11.52842516726486]
本稿では,トランスエンコーダ層に時間削減層を組み込んだTransformer-based ASRモデルを提案する。
また、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。
言語モデル(LM)融合により、トランスフォーマーベースのASRモデルのための最新の単語誤り率(WER)結果を達成します。
論文 参考訳(メタデータ) (2021-03-17T21:02:36Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z) - Refined Gate: A Simple and Effective Gating Mechanism for Recurrent
Units [68.30422112784355]
本稿では,この問題に対処する一般ゲートリカレントニューラルネットワークにおける新しいゲーティング機構を提案する。
提案したゲートは、抽出された入力特徴とバニラゲートの出力を直接的にショートする。
LSTM, GRU, MGUの3種類のゲートRNNに対して, 提案したゲーティング機構を検証する。
論文 参考訳(メタデータ) (2020-02-26T07:51:38Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。