論文の概要: Three-in-One: Fast and Accurate Transducer for Hybrid-Autoregressive ASR
- arxiv url: http://arxiv.org/abs/2410.02597v1
- Date: Thu, 3 Oct 2024 15:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 02:12:23.830706
- Title: Three-in-One: Fast and Accurate Transducer for Hybrid-Autoregressive ASR
- Title(参考訳): 3-in-One:ハイブリッド自己回帰型ASRのための高速かつ高精度なトランスデューサ
- Authors: Hainan Xu, Travis M. Bartley, Vladimir Bataev, Boris Ginsburg,
- Abstract要約: 音声認識のための新しいアーキテクチャであるtextbfHybrid-textbfAutoregressive textbfINference TrtextbfANsducers (HAINAN) を提案する。
HAINANは、すべてのネットワークコンポーネントによる自己回帰推論と、予測子を使わずに非自己回帰推論の両方をサポートする。
- 参考スコア(独自算出の注目度): 17.950722198543897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present \textbf{H}ybrid-\textbf{A}utoregressive \textbf{IN}ference Tr\textbf{AN}sducers (HAINAN), a novel architecture for speech recognition that extends the Token-and-Duration Transducer (TDT) model. Trained with randomly masked predictor network outputs, HAINAN supports both autoregressive inference with all network components and non-autoregressive inference without the predictor. Additionally, we propose a novel semi-autoregressive inference paradigm that first generates an initial hypothesis using non-autoregressive inference, followed by refinement steps where each token prediction is regenerated using parallelized autoregression on the initial hypothesis. Experiments on multiple datasets across different languages demonstrate that HAINAN achieves efficiency parity with CTC in non-autoregressive mode and with TDT in autoregressive mode. In terms of accuracy, autoregressive HAINAN outperforms TDT and RNN-T, while non-autoregressive HAINAN significantly outperforms CTC. Semi-autoregressive inference further enhances the model's accuracy with minimal computational overhead, and even outperforms TDT results in some cases. These results highlight HAINAN's flexibility in balancing accuracy and speed, positioning it as a strong candidate for real-world speech recognition applications.
- Abstract(参考訳): 本稿では,Token-and-Duration Transducer (TDT) モデルを拡張した音声認識の新しいアーキテクチャである Tr\textbf{H}ybrid-\textbf{A}utoregressive \textbf{IN}ference Tr\textbf{AN}sducers (HAINAN) を提案する。
ランダムにマスクされたネットワーク出力でトレーニングされたHAINANは、すべてのネットワークコンポーネントによる自己回帰推論と、予測子を使わずに非自己回帰推論の両方をサポートする。
さらに,最初に非自己回帰推論を用いて初期仮説を生成する半自己回帰推論パラダイムを提案し,その後,初期仮説上で並列化された自己回帰を用いて各トークン予測を再生する改良ステップを提案する。
異なる言語にまたがる複数のデータセットの実験では、HAINANは非自己回帰モードではCTC、自己回帰モードではTDTと効率が同等であることが示されている。
自己回帰型HAINANはTDT, RNN-Tより優れ, 非自己回帰型HAINANはCTCより有意に優れていた。
半自己回帰推論は、計算オーバーヘッドを最小限にしてモデルの精度をさらに高め、場合によってはTDT結果よりも優れる。
これらの結果から,HAINANの精度と速度のバランスの柔軟性が強調され,実世界の音声認識応用の強力な候補として位置づけられた。
関連論文リスト
- Utilizing Multiple Inputs Autoregressive Models for Bearing Remaining
Useful Life Prediction [3.448070371030467]
軸受のRUL予測において,この課題に対処する新しい多入力自己回帰モデルを提案する。
自己回帰反復により、モデルはグローバルな受容場を獲得し、一般化の限界を効果的に克服する。
PMH2012データセットの実証評価では, 同様の自己回帰アプローチを用いたバックボーンネットワークと比較して, ルート平均角誤差(RMSE)とスコアが有意に低いことが示されている。
論文 参考訳(メタデータ) (2023-11-26T09:50:32Z) - Instance-based Learning with Prototype Reduction for Real-Time
Proportional Myocontrol: A Randomized User Study Demonstrating
Accuracy-preserving Data Reduction for Prosthetic Embedded Systems [0.0]
本研究は, 義肢制御におけるジェスチャー検出のためのkNNスキームに基づく学習手法の設計, 実装, 検証を行う。
8チャンネルSEMGアームバンドを用いて,パラメータ化と比例スキームの変化の影響を解析した。
論文 参考訳(メタデータ) (2023-08-21T20:15:35Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Directed Acyclic Transformer Pre-training for High-quality
Non-autoregressive Text Generation [98.37871690400766]
非AutoRegressive (NAR) テキスト生成モデルは、デコード速度が大幅に速く、機械翻訳の質が良いため、多くの注目を集めている。
既存のNARモデルは適切な事前訓練を欠いており、まだ訓練済みの自己回帰モデルよりはるかに遅れている。
我々は,NAR生成における予測整合性を促進するために,事前訓練された非巡回変圧器を提案する。
論文 参考訳(メタデータ) (2023-04-24T02:30:33Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Non-Autoregressive Text Generation with Pre-trained Language Models [40.50508206201288]
BERTはNAGモデルのバックボーンとして利用でき、性能を大幅に向上できることを示す。
バニラNAGモデルの2つの共通問題を緩和するメカニズムを考案する。
本稿では,出力長を事前に推定できる新しいデコード戦略である ratio-first を提案する。
論文 参考訳(メタデータ) (2021-02-16T15:30:33Z) - Enriching Non-Autoregressive Transformer with Syntactic and
SemanticStructures for Neural Machine Translation [54.864148836486166]
本稿では,言語の明示的な構文構造と意味構造を非自己回帰トランスフォーマーに組み込むことを提案する。
我々のモデルは、最先端の非自己回帰モデルと比較して翻訳品質を保ちながら、はるかに高速な速度を実現している。
論文 参考訳(メタデータ) (2021-01-22T04:12:17Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z) - Aligned Cross Entropy for Non-Autoregressive Machine Translation [120.15069387374717]
非自己回帰モデルの学習における代替的損失関数としてアライメントクロスエントロピー(AXE)を提案する。
AXEに基づく条件付きマスキング言語モデル(CMLM)のトレーニングは、主要なWMTベンチマークの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2020-04-03T16:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。