論文の概要: Deformable TDNN with adaptive receptive fields for speech recognition
- arxiv url: http://arxiv.org/abs/2104.14791v1
- Date: Fri, 30 Apr 2021 07:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:33:17.517944
- Title: Deformable TDNN with adaptive receptive fields for speech recognition
- Title(参考訳): 適応受容場を有する変形可能なTDNNによる音声認識
- Authors: Keyu An, Yi Zhang, Zhijian Ou
- Abstract要約: 本論文では,終端音声認識における適応時間ダイナミクスモデリングに変形可能なTDNNを使用することを提案する。
実験では、変形可能なTDNNはWSJベンチマークで最新の結果を得る。
また,変形可能なTDNNの遅延制御機構を提案する。
- 参考スコア(独自算出の注目度): 28.068068043295415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Time Delay Neural Networks (TDNNs) are widely used in both DNN-HMM based
hybrid speech recognition systems and recent end-to-end systems. Nevertheless,
the receptive fields of TDNNs are limited and fixed, which is not desirable for
tasks like speech recognition, where the temporal dynamics of speech are varied
and affected by many factors. This paper proposes to use deformable TDNNs for
adaptive temporal dynamics modeling in end-to-end speech recognition. Inspired
by deformable ConvNets, deformable TDNNs augment the temporal sampling
locations with additional offsets and learn the offsets automatically based on
the ASR criterion, without additional supervision. Experiments show that
deformable TDNNs obtain state-of-the-art results on WSJ benchmarks
(1.42\%/3.45\% WER on WSJ eval92/dev93 respectively), outperforming standard
TDNNs significantly. Furthermore, we propose the latency control mechanism for
deformable TDNNs, which enables deformable TDNNs to do streaming ASR without
accuracy degradation.
- Abstract(参考訳): 時間遅延ニューラルネットワーク(TDNN)は、DNN-HMMに基づくハイブリッド音声認識システムと、最近のエンドツーエンドシステムの両方で広く使われている。
それでも、TDNNの受容領域は限定的かつ固定的であり、音声認識のようなタスクには適さない。
本稿では、変形可能なTDNNを用いて、エンドツーエンド音声認識における適応時間動的モデリングを提案する。
変形可能なConvNetにインスパイアされた変形可能なTDNNは、時間的サンプリング位置を追加のオフセットで増強し、追加の監督なしにASR基準に基づいて自動的にオフセットを学習する。
実験により、変形可能なTDNNはWSJベンチマーク(WSJ eval92/dev93でそれぞれ1.42\%/3.45\% WER)で最先端の結果を得ることができ、標準TDNNよりも大幅に優れていた。
さらに,変形可能なtdnnがストリーミングasrを精度劣化なく行うことを可能にする,変形可能なtdnnの遅延制御機構を提案する。
関連論文リスト
- ISDNN: A Deep Neural Network for Channel Estimation in Massive MIMO systems [0.5917100081691199]
チャネル推定のためのシングルステップディープニューラルネットワーク(DNN)を提案する。
ISDNNは、データ検出アルゴリズムの最近の発展にインスパイアされている。
別のDNNベースのCE(DetNet)よりも、トレーニング時間、実行時間、正確性においてはるかに優れています。
論文 参考訳(メタデータ) (2024-10-26T07:44:46Z) - Single Channel Speech Enhancement Using U-Net Spiking Neural Networks [2.436681150766912]
音声強調(SE)は、信頼性の高い通信装置や頑健な音声認識システムに不可欠である。
U-Netアーキテクチャに基づくスパイキングニューラルネットワーク(SNN)を用いたSEに対する新しいアプローチを提案する。
SNNは音声などの時間次元のデータ処理に適しており、ニューロモルフィックハードウェア上でのエネルギー効率のよい実装で知られている。
論文 参考訳(メタデータ) (2023-07-26T19:10:29Z) - Robust and Lossless Fingerprinting of Deep Neural Networks via Pooled
Membership Inference [17.881686153284267]
ディープニューラルネットワーク(DNN)は、すでに多くのアプリケーション分野で大きな成功を収めており、私たちの社会に大きな変化をもたらしています。
DNNの知的財産権(IP)を侵害から保護する方法は、最も重要かつ非常に困難なトピックの1つである。
本稿では,DNNモデルのIPを保護するために,Emphpooled Memberation Inference (PMI) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-09-09T04:06:29Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Alignment Restricted Streaming Recurrent Neural Network Transducer [29.218353627837214]
本稿では、RNN-T損失関数の修正とアライメント制限付きRNN-Tモデルの開発について述べる。
Ar-RNN-T損失は、トークン放出遅延とワードエラーレート(WER)の間のトレードオフをナビゲートする洗練された制御を提供する。
Ar-RNN-Tモデルは、任意の遅延範囲内でトークンの放出を保証することにより、ASRエンドポイントのような下流アプリケーションを改善する。
論文 参考訳(メタデータ) (2020-11-05T19:38:54Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z) - Crossed-Time Delay Neural Network for Speaker Recognition [5.216353911330589]
我々は,現在のTDNNの性能を高めるために,新しい構造であるCrossed-Time Delay Neural Network (CTDNN)を導入する。
提案したCTDNNは,話者認証タスクと識別タスクの両方において,元のTDNNよりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-05-31T06:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。