論文の概要: Generalizing RNN-Transducer to Out-Domain Audio via Sparse
Self-Attention Layers
- arxiv url: http://arxiv.org/abs/2108.10752v1
- Date: Sun, 22 Aug 2021 08:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:10:22.074796
- Title: Generalizing RNN-Transducer to Out-Domain Audio via Sparse
Self-Attention Layers
- Title(参考訳): 疎自己注意層を用いたRNN-Transducerの外部オーディオへの一般化
- Authors: Juntae Kim, Jeehye Lee, Yoonhan Lee
- Abstract要約: リカレントニューラルネットワークトランスデューサ(RNN-T)は、有望なエンドツーエンド音声認識フレームワークである。
Conformerは、その畳み込み層と自己認識層を通じて、ローカル・グローバルコンテキスト情報を効果的にモデル化することができる。
Conformer RNN-Tのドメインミスマッチ問題は、まだ十分に研究されていない。
- 参考スコア(独自算出の注目度): 7.025709586759655
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recurrent neural network transducers (RNN-T) are a promising end-to-end
speech recognition framework that transduces input acoustic frames into a
character sequence. The state-of-the-art encoder network for RNN-T is the
Conformer, which can effectively model the local-global context information via
its convolution and self-attention layers. Although Conformer RNN-T has shown
outstanding performance (measured by word error rate (WER) in general), most
studies have been verified in the setting where the train and test data are
drawn from the same domain. The domain mismatch problem for Conformer RNN-T has
not been intensively investigated yet, which is an important issue for the
product-level speech recognition system. In this study, we identified that
fully connected self-attention layers in the Conformer caused high deletion
errors, specifically in the long-form out-domain utterances. To address this
problem, we introduce sparse self-attention layers for Conformer-based encoder
networks, which can exploit local and generalized global information by pruning
most of the in-domain fitted global connections. Further, we propose a state
reset method for the generalization of the prediction network to cope with
long-form utterances. Applying proposed methods to an out-domain test, we
obtained 24.6\% and 6.5\% relative character error rate (CER) reduction
compared to the fully connected and local self-attention layer-based
Conformers, respectively.
- Abstract(参考訳): recurrent neural network transducers(rnn-t)は、入力された音響フレームを文字列に変換する、有望なエンドツーエンド音声認識フレームワークである。
RNN-Tの最先端エンコーダネットワークであるConformerは、その畳み込み層と自己アテンション層を通じて、ローカル・グローバルコンテキスト情報を効果的にモデル化することができる。
コンフォーマーRNN-Tは, 単語誤り率(WER)によって測定されるが, 列車と試験データが同一領域から抽出される状況下では, 大半が検証されている。
Conformer RNN-Tのドメインミスマッチ問題は、製品レベルの音声認識システムにおいて重要な問題である。
本研究では,コンバータにおける完全連結型自己意図層が,特に長文外発話において高い削除誤差を引き起こしていることを確認した。
この問題に対処するため,コンフォーメータベースのエンコーダネットワークでは,局所的および一般化されたグローバル情報を活用できる疎自己着層を導入する。
さらに,長文発話に対応する予測ネットワークの一般化のための状態リセット手法を提案する。
提案手法を領域外試験に適用し, 完全連結層と局所自己保持層を用いたコンバータと比較して, 24.6 % と 6.5 % の相対的文字誤り率 (CER) を削減した。
関連論文リスト
- Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - DS-TDNN: Dual-stream Time-delay Neural Network with Global-aware Filter
for Speaker Verification [3.0831477850153224]
本稿では,グローバル・アウェア・フィルタ・レイヤ(GF層)と呼ばれる新しいモジュールについて紹介する。
本稿では、自動話者検証(ASV)のためのDS-TDNNと呼ばれるデュアルストリームTDNNアーキテクチャを提案する。
VoxcelebとSITWデータベースの実験は、DS-TDNNが相対的に10%改善し、相対的に計算コストが20%低下したことを示している。
論文 参考訳(メタデータ) (2023-03-20T10:58:12Z) - DeepSeer: Interactive RNN Explanation and Debugging via State
Abstraction [10.110976560799612]
リカレントニューラルネットワーク(RNN)は自然言語処理(NLP)タスクで広く使われている。
DeepSeerは、RNNの振る舞いのグローバルとローカルの両方の説明を提供するインタラクティブシステムである。
論文 参考訳(メタデータ) (2023-03-02T21:08:17Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - CS-Rep: Making Speaker Verification Networks Embracing
Re-parameterization [27.38202134344989]
本研究では、モデルの推論速度と検証精度を高めるために、CS-Rep(クロスシーケンス再パラメータ化)を提案する。
Rep-TDNNは実際の推論速度を50%向上させ、EERを10%削減する。
論文 参考訳(メタデータ) (2021-10-26T08:00:03Z) - Adaptive Anomaly Detection for Internet of Things in Hierarchical Edge
Computing: A Contextual-Bandit Approach [81.5261621619557]
階層エッジコンピューティング(HEC)を用いた適応型異常検出手法を提案する。
まず,複雑性を増した複数のDNNモデルを構築し,それぞれを対応するHEC層に関連付ける。
そこで我々は、文脈帯域問題として定式化され、強化学習ポリシーネットワークを用いて解決される適応モデル選択スキームを設計する。
論文 参考訳(メタデータ) (2021-08-09T08:45:47Z) - Towards Adversarially Robust and Domain Generalizable Stereo Matching by
Rethinking DNN Feature Backbones [14.569829985753346]
本稿では,弱いホワイトボックス攻撃が最先端の手法を失敗させる可能性があることを示す。
提案手法はSceneFlowデータセットとKITTI2015ベンチマークで検証される。
これは、最先端の手法に匹敵する精度を維持しながら、敵の堅牢性を大幅に改善する。
論文 参考訳(メタデータ) (2021-07-31T22:44:18Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Provable Generalization of SGD-trained Neural Networks of Any Width in
the Presence of Adversarial Label Noise [85.59576523297568]
勾配降下法により学習した任意の幅の1層リークReLUネットワークを考察する。
sgdは,分布上の最良半空間に匹敵する分類精度を持つニューラルネットワークを生成できることを実証する。
論文 参考訳(メタデータ) (2021-01-04T18:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。