論文の概要: Sequence Transduction with Graph-based Supervision
- arxiv url: http://arxiv.org/abs/2111.01272v1
- Date: Mon, 1 Nov 2021 21:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 14:19:25.293609
- Title: Sequence Transduction with Graph-based Supervision
- Title(参考訳): グラフベーススーパービジョンを用いたシーケンストランスダクション
- Authors: Niko Moritz, Takaaki Hori, Shinji Watanabe, Jonathan Le Roux
- Abstract要約: ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
- 参考スコア(独自算出の注目度): 96.04967815520193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recurrent neural network transducer (RNN-T) objective plays a major role
in building today's best automatic speech recognition (ASR) systems for
production. Similarly to the connectionist temporal classification (CTC)
objective, the RNN-T loss uses specific rules that define how a set of
alignments is generated to form a lattice for the full-sum training. However,
it is yet largely unknown if these rules are optimal and do lead to the best
possible ASR results. In this work, we present a new transducer objective
function that generalizes the RNN-T loss to accept a graph representation of
the labels, thus providing a flexible and efficient framework to manipulate
training lattices, for example for restricting alignments or studying different
transition rules. We demonstrate that transducer-based ASR with CTC-like
lattice achieves better results compared to standard RNN-T, while also ensuring
a strictly monotonic alignment, which will allow better optimization of the
decoding procedure. For example, the proposed CTC-like transducer system
achieves a word error rate of 5.9% for the test-other condition of LibriSpeech,
corresponding to an improvement of 4.8% relative to an equivalent RNN-T based
system.
- Abstract(参考訳): リカレントニューラルネットワークトランスデューサ(RNN-T)の目標は、生産のための今日の最高の自動音声認識(ASR)システムを構築する上で大きな役割を果たす。
接続性時間分類(CTC)の目的と同様に、RNN-T損失は、一組のアライメントをどのように生成してフルサムトレーニングのための格子を形成するかを定義する特定のルールを使用する。
しかし、これらのルールが最適であり、最高のASR結果をもたらすかどうかはまだ不明である。
本研究では,ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化する新たなトランスデューサ目的関数を提案する。
CTCのような格子を持つトランスデューサベースのASRは、標準のRNN-Tよりも優れた結果が得られると同時に、厳密な単調なアライメントを確保し、復号処理の最適化を可能にすることを実証する。
例えば、提案したCTCライクなトランスデューサシステムは、同等のRNN-Tベースのシステムに対する4.8%の改善に対応する、LibriSpeechの他のテスト条件に対する単語誤り率5.9%を達成する。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。
実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - CIF-T: A Novel CIF-based Transducer Architecture for Automatic Speech
Recognition [8.302549684364195]
本稿では,CIF(Continuous Integrate-and-Fire)機構をRNN-Tモデルに組み込んだCIF-Transducer(CIF-T)を提案する。
CIF-T は RNN-T モデルと比較して計算オーバーヘッドの少ない最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-07-26T11:59:14Z) - Powerful and Extensible WFST Framework for RNN-Transducer Losses [71.56212119508551]
本稿では,RNN-Transducer (RNN-T) の損失に対する修正の簡易化を目的として,WFST (Weighted Finite-State Transducer) に基づくフレームワークを提案する。
既存のRNN-Tのユースケース関連コードは、拡張とデバッグが難しい。
WFSTを利用したRNN-T実装として、"Compose-Transducer"と"Grid-Transducer"の2つを紹介する。
論文 参考訳(メタデータ) (2023-03-18T10:36:33Z) - Accelerating RNN-T Training and Inference Using CTC guidance [18.776997761704784]
提案手法は, 単語誤り率(WER)と類似あるいは若干良い単語誤り率(WER)で, RNN-T推論を2.2倍高速化することができる。
提案手法により, 単語誤り率(WER)を2.2倍に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-10-29T03:39:18Z) - VQ-T: RNN Transducers using Vector-Quantized Prediction Network States [52.48566999668521]
本稿では,RNNトランスデューサの予測ネットワークにおけるベクトル量子化長短期記憶単位を提案する。
ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。
提案するVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-03T02:45:52Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - HMM-Free Encoder Pre-Training for Streaming RNN Transducer [9.970995981222993]
本研究では,ストリームリカレントニューラルネットワークトランスデューサ(RNN-T)モデルのトレーニングを改善するために,フレームワイズラベルを用いたエンコーダ事前トレーニング手順について述べる。
我々の知る限り、これはCTCモデルを用いてHMMベースのフレームワイドラベルを事前学習する最初の試みである。
論文 参考訳(メタデータ) (2021-04-02T16:14:11Z) - Synthesizing Context-free Grammars from Recurrent Neural Networks
(Extended Version) [6.3455238301221675]
訓練されたリカレントニューラルネットワーク(RNN)から文脈自由文法(CFG)を抽出するアルゴリズムを提案する。
非正規言語を近似した決定論的有限オートマトン(DFAs)のシーケンスを記述する新しいフレームワークであるパターンルールセット(PRS)を開発した。
PRSがCFGにどのように変換されるかを示し、学習言語に親しみやすく有用なプレゼンテーションを可能にする。
論文 参考訳(メタデータ) (2021-01-20T16:22:25Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。