論文の概要: Memory-augmented conformer for improved end-to-end long-form ASR
- arxiv url: http://arxiv.org/abs/2309.13029v1
- Date: Fri, 22 Sep 2023 17:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 13:29:07.825399
- Title: Memory-augmented conformer for improved end-to-end long-form ASR
- Title(参考訳): 長期ASR改善のためのメモリ拡張コンバータ
- Authors: Carlos Carvalho and Alberto Abad
- Abstract要約: 本稿では,コンバータのエンコーダとデコーダ間のメモリ拡張ニューラルネットワークを提案する。
この外部メモリは、より長い発話の一般化を豊かにすることができる。
提案方式は,長い発話に対してメモリを使わずにベースラインコンバータより優れていることを示す。
- 参考スコア(独自算出の注目度): 9.876354589883002
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Conformers have recently been proposed as a promising modelling approach for
automatic speech recognition (ASR), outperforming recurrent neural
network-based approaches and transformers. Nevertheless, in general, the
performance of these end-to-end models, especially attention-based models, is
particularly degraded in the case of long utterances. To address this
limitation, we propose adding a fully-differentiable memory-augmented neural
network between the encoder and decoder of a conformer. This external memory
can enrich the generalization for longer utterances since it allows the system
to store and retrieve more information recurrently. Notably, we explore the
neural Turing machine (NTM) that results in our proposed Conformer-NTM model
architecture for ASR. Experimental results using Librispeech train-clean-100
and train-960 sets show that the proposed system outperforms the baseline
conformer without memory for long utterances.
- Abstract(参考訳): コンフォーマーは、最近、自動音声認識(ASR)のための有望なモデリングアプローチとして提案され、リカレントニューラルネットワークベースのアプローチやトランスフォーマーよりも優れている。
しかしながら、一般にこれらのエンドツーエンドモデル、特に注意に基づくモデルの性能は、長い発話の場合特に劣化している。
この制限に対処するために、コンバータのエンコーダとデコーダの間に、完全微分可能なメモリ拡張ニューラルネットワークを追加することを提案する。
この外部メモリは、システムがより多くの情報を保存し、再帰的に取得できるため、より長い発話の一般化を強化することができる。
特に,ASR のための Conformer-NTM モデルアーキテクチャを提案するニューラルチューリングマシン (NTM) について検討する。
Librispeech train-clean-100 と Train-960 を用いた実験結果から,提案方式は長い発話の記憶のないベースラインコンバータよりも優れていた。
関連論文リスト
- Delayed Memory Unit: Modelling Temporal Dependency Through Delay Gate [16.4160685571157]
リカレントニューラルネットワーク(RNN)は、時間的依存をモデル化する能力で広く認識されている。
本稿では、ゲートRNNのための新しい遅延メモリユニット(DMU)を提案する。
DMUは遅延線構造と遅延ゲートをバニラRNNに組み込み、時間的相互作用を高め、時間的信用割り当てを容易にする。
論文 参考訳(メタデータ) (2023-10-23T14:29:48Z) - MF-NeRF: Memory Efficient NeRF with Mixed-Feature Hash Table [62.164549651134465]
MF-NeRFは,Mixed-Featureハッシュテーブルを用いてメモリ効率を向上し,再構成品質を維持しながらトレーニング時間を短縮するメモリ効率の高いNeRFフレームワークである。
最新技術であるInstant-NGP、TensoRF、DVGOによる実験は、MF-NeRFが同じGPUハードウェア上で、同様のあるいはそれ以上のリコンストラクション品質で最速のトレーニング時間を達成できることを示唆している。
論文 参考訳(メタデータ) (2023-04-25T05:44:50Z) - Return of the RNN: Residual Recurrent Networks for Invertible Sentence
Embeddings [0.0]
本研究では、教師なし符号化タスクで訓練された残効再帰ネットワークを用いて、非可逆文埋め込みのための新しいモデルを提案する。
ニューラルネットワーク翻訳モデルに共通する確率的出力ではなく、回帰に基づく出力層を用いて入力シーケンスのワードベクトルを再構成する。
RNNはLSTMや2次最適化法などのメモリユニットを必要とすることを考えると、このモデルはADAMによる高精度かつ高速なトレーニングを実現している。
論文 参考訳(メタデータ) (2023-03-23T15:59:06Z) - A novel Deep Neural Network architecture for non-linear system
identification [78.69776924618505]
非線形システム識別のための新しいDeep Neural Network (DNN)アーキテクチャを提案する。
メモリシステムにインスパイアされたインダクティブバイアス(アーキテクチャ)と正規化(損失関数)を導入する。
このアーキテクチャは、利用可能なデータのみに基づいて、自動的な複雑性の選択を可能にする。
論文 参考訳(メタデータ) (2021-06-06T10:06:07Z) - Short-Term Memory Optimization in Recurrent Neural Networks by
Autoencoder-based Initialization [79.42778415729475]
線形オートエンコーダを用いた列列の明示的暗記に基づく代替解を提案する。
このような事前学習が、長いシーケンスで難しい分類タスクを解くのにどのように役立つかを示す。
提案手法は, 長周期の復元誤差をはるかに小さくし, 微調整時の勾配伝播を良くすることを示す。
論文 参考訳(メタデータ) (2020-11-05T14:57:16Z) - A Fully Tensorized Recurrent Neural Network [48.50376453324581]
重み付けされたRNNアーキテクチャを導入し、各リカレントセル内の個別の重み付け行列を共同で符号化する。
このアプローチはモデルのサイズを数桁削減するが、通常のRNNと同等あるいは優れた性能を維持している。
論文 参考訳(メタデータ) (2020-10-08T18:24:12Z) - Coupled Oscillatory Recurrent Neural Network (coRNN): An accurate and
(gradient) stable architecture for learning long time dependencies [15.2292571922932]
本稿では,リカレントニューラルネットワークのための新しいアーキテクチャを提案する。
提案するRNNは, 2次常微分方程式系の時間分解に基づく。
実験の結果,提案したRNNは,様々なベンチマークによる最先端技術に匹敵する性能を示した。
論文 参考訳(メタデータ) (2020-10-02T12:35:04Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Memory Augmented Neural Model for Incremental Session-based
Recommendation [36.33193124174747]
インクリメンタルセッションベースのレコメンデーションシナリオでは,既存のニューラルレコメンデータが使用できることを示す。
メモリ拡張ニューラルモデル(MAN)と呼ばれる一般的なフレームワークを提案する。
MANは、継続的にクエリされ更新された非パラメトリックメモリでベース神経レコメンデータを強化する。
論文 参考訳(メタデータ) (2020-04-28T19:07:20Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。