論文の概要: Powerful and Extensible WFST Framework for RNN-Transducer Losses
- arxiv url: http://arxiv.org/abs/2303.10384v1
- Date: Sat, 18 Mar 2023 10:36:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 19:46:53.934699
- Title: Powerful and Extensible WFST Framework for RNN-Transducer Losses
- Title(参考訳): RNN-Transducer Lossesのための強力で拡張可能なWFSTフレームワーク
- Authors: Aleksandr Laptev, Vladimir Bataev, Igor Gitman, Boris Ginsburg
- Abstract要約: 本稿では,RNN-Transducer (RNN-T) の損失に対する修正の簡易化を目的として,WFST (Weighted Finite-State Transducer) に基づくフレームワークを提案する。
既存のRNN-Tのユースケース関連コードは、拡張とデバッグが難しい。
WFSTを利用したRNN-T実装として、"Compose-Transducer"と"Grid-Transducer"の2つを紹介する。
- 参考スコア(独自算出の注目度): 71.56212119508551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a framework based on Weighted Finite-State Transducers
(WFST) to simplify the development of modifications for RNN-Transducer (RNN-T)
loss. Existing implementations of RNN-T use CUDA-related code, which is hard to
extend and debug. WFSTs are easy to construct and extend, and allow debugging
through visualization. We introduce two WFST-powered RNN-T implementations: (1)
"Compose-Transducer", based on a composition of the WFST graphs from acoustic
and textual schema -- computationally competitive and easy to modify; (2)
"Grid-Transducer", which constructs the lattice directly for further
computations -- most compact, and computationally efficient. We illustrate the
ease of extensibility through introduction of a new W-Transducer loss -- the
adaptation of the Connectionist Temporal Classification with Wild Cards.
W-Transducer (W-RNNT) consistently outperforms the standard RNN-T in a
weakly-supervised data setup with missing parts of transcriptions at the
beginning and end of utterances. All RNN-T losses are implemented with the k2
framework and are available in the NeMo toolkit.
- Abstract(参考訳): 本稿では,RNN-Transducer(RNN-T)の損失に対する修正の簡易化を目的としたWFST(Weighted Finite-State Transducer)に基づくフレームワークを提案する。
既存のRNN-Tの実装ではCUDA関連のコードを使用しており、拡張やデバッグが難しい。
WFSTは簡単に構築および拡張でき、視覚化によるデバッグが可能である。
本稿では, WFST を利用した RNN-T 実装について紹介する: (1) WFST グラフの音響的およびテキスト的スキーマからの合成に基づく "Compose-Transducer" , (2) さらなる計算のために格子を直接構築する "Grid-Transducer" 。
本稿では,新たな w-transducer loss -- the adapt of the connectionist temporal classification with wild cards(w-transducer loss)の導入により,拡張性が向上することを示す。
W-RNNT(W-Transducer, W-RNNT)は、標準のRNN-Tを音声の開始時と終了時に欠落する部分を持つ弱い教師付きデータセットで一貫して上回っている。
RNN-Tの損失はすべてk2フレームワークで実装されており、NeMoツールキットで利用可能である。
関連論文リスト
- Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。
高速グラフシャープネス認識最小化(FGSAM)を提案する。
提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文 参考訳(メタデータ) (2024-10-22T09:33:29Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - CIF-T: A Novel CIF-based Transducer Architecture for Automatic Speech
Recognition [8.302549684364195]
本稿では,CIF(Continuous Integrate-and-Fire)機構をRNN-Tモデルに組み込んだCIF-Transducer(CIF-T)を提案する。
CIF-T は RNN-T モデルと比較して計算オーバーヘッドの少ない最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-07-26T11:59:14Z) - ConvRNN-T: Convolutional Augmented Recurrent Neural Network Transducers
for Streaming Speech Recognition [14.384132377946154]
ローカルおよびグローバルなコンテキストエンコーダからなる新しい畳み込みコンテキストを持つ新しいストリーミングASRモデルであるConvRNN-Tを導入する。
ConvRNN-T は RNN-T, Conformer および ContextNet の音声および室内データより優れることを示す。
ConvRNN-Tの精度とフットプリントの低さは、オンデバイスストリーミングのASR技術に有望な候補となる。
論文 参考訳(メタデータ) (2022-09-29T15:33:41Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - Tied & Reduced RNN-T Decoder [0.0]
認識性能を低下させることなく,RNN-Tデコーダ(予測ネットワーク+ジョイントネットワーク)の小型化と高速化を図る。
我々の予測ネットワークは入力埋め込みの簡単な重み付けを行い、その埋め込み行列重みを結合ネットワークの出力層と共有する。
このシンプルな設計は、追加の編集ベースの最小ベイズリスク(EMBR)トレーニングと併用することで、ワードエラー率(WER)に影響を与えることなく、RNN-Tデコーダを23Mパラメータから2Mに削減する。
論文 参考訳(メタデータ) (2021-09-15T18:19:16Z) - Alignment Restricted Streaming Recurrent Neural Network Transducer [29.218353627837214]
本稿では、RNN-T損失関数の修正とアライメント制限付きRNN-Tモデルの開発について述べる。
Ar-RNN-T損失は、トークン放出遅延とワードエラーレート(WER)の間のトレードオフをナビゲートする洗練された制御を提供する。
Ar-RNN-Tモデルは、任意の遅延範囲内でトークンの放出を保証することにより、ASRエンドポイントのような下流アプリケーションを改善する。
論文 参考訳(メタデータ) (2020-11-05T19:38:54Z) - Neuroevolutionary Transfer Learning of Deep Recurrent Neural Networks
through Network-Aware Adaptation [57.46377517266827]
本研究はN-ASTL(Network-Aware Adaptive Structure Transfer Learning)を導入する。
N-ASTLは、ソースネットワークのトポロジと重み分布に関する統計情報を利用して、新しい入力ニューロンと出力ニューロンが既存の構造にどのように統合されるかを伝える。
結果は、これまで不可能だった現実世界のデータセットを転送する機能など、従来の最先端よりも改善されていることを示している。
論文 参考訳(メタデータ) (2020-06-04T06:07:30Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。