論文の概要: Boosting Hybrid Autoregressive Transducer-based ASR with Internal Acoustic Model Training and Dual Blank Thresholding
- arxiv url: http://arxiv.org/abs/2409.20313v1
- Date: Mon, 30 Sep 2024 14:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 07:56:35.982305
- Title: Boosting Hybrid Autoregressive Transducer-based ASR with Internal Acoustic Model Training and Dual Blank Thresholding
- Title(参考訳): 内部音響モデルトレーニングとデュアルブランク閾値を併用したハイブリッド自己回帰トランスデューサを用いたASR
- Authors: Takafumi Moriya, Takanori Ashihara, Masato Mimura, Hiroshi Sato, Kohei Matsuura, Ryo Masumura, Taichi Asami,
- Abstract要約: HATに基づく音声認識を強化する内部音響モデル(IAM)訓練戦略
IAMはエンコーダとジョイントネットワークで構成されており、完全に共有され、HATと共同で訓練されている。
- 参考スコア(独自算出の注目度): 35.29443802809237
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A hybrid autoregressive transducer (HAT) is a variant of neural transducer that models blank and non-blank posterior distributions separately. In this paper, we propose a novel internal acoustic model (IAM) training strategy to enhance HAT-based speech recognition. IAM consists of encoder and joint networks, which are fully shared and jointly trained with HAT. This joint training not only enhances the HAT training efficiency but also encourages IAM and HAT to emit blanks synchronously which skips the more expensive non-blank computation, resulting in more effective blank thresholding for faster decoding. Experiments demonstrate that the relative error reductions of the HAT with IAM compared to the vanilla HAT are statistically significant. Moreover, we introduce dual blank thresholding, which combines both HAT- and IAM-blank thresholding and a compatible decoding algorithm. This results in a 42-75% decoding speed-up with no major performance degradation.
- Abstract(参考訳): ハイブリッド自己回帰トランスデューサ(英: hybrid autoregressive Transducer、HAT)は、ブランクと非ブランクの後方分布を別々にモデル化したニューラルトランスデューサの一種である。
本稿では,HATに基づく音声認識を強化するための新しい内部音響モデル(IAM)トレーニング戦略を提案する。
IAMはエンコーダとジョイントネットワークで構成されており、完全に共有され、HATと共同で訓練されている。
この共同トレーニングは、HATトレーニング効率を向上するだけでなく、IAMとHATは同期的にブランクを出力し、より高価な非ブランク計算をスキップする。
実験により、バニラHATと比較してHATとIAMの相対誤差の減少が統計的に有意であることが示された。
さらに,HAT-およびIAM-ブランクしきい値と互換性のある復号アルゴリズムを組み合わせた二重空白しきい値処理を導入する。
その結果、42-75%のデコード速度が向上し、性能が大幅に低下することはなかった。
関連論文リスト
- Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - Three-in-One: Fast and Accurate Transducer for Hybrid-Autoregressive ASR [17.950722198543897]
音声認識のための新しいアーキテクチャであるtextbfHybrid-textbfAutoregressive textbfINference TrtextbfANsducers (HAINAN) を提案する。
HAINANは、すべてのネットワークコンポーネントによる自己回帰推論と、予測子を使わずに非自己回帰推論の両方をサポートする。
論文 参考訳(メタデータ) (2024-10-03T15:38:20Z) - Covariance-corrected Whitening Alleviates Network Degeneration on Imbalanced Classification [6.197116272789107]
クラス不均衡は画像分類において重要な問題であり、深層認識モデルの性能に大きな影響を及ぼす。
我々は、退化ソリューションを緩和するWhitening-Netと呼ばれる新しいフレームワークを提案する。
極端なクラス不均衡のシナリオでは、バッチ共分散統計は大きな変動を示し、白化操作の収束を妨げる。
論文 参考訳(メタデータ) (2024-08-30T10:49:33Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Modular Hybrid Autoregressive Transducer [51.29870462504761]
トランスデューサモデルのテキストのみの適応は、エンドツーエンド音声認識では依然として困難である。
ラベルとブランクデコーダを構造的に分離したモジュール型ハイブリッド自己回帰トランスデューサを提案する。
Googleの大規模生産データでは、100B文に適合したマルチドメインのMHATが、LM融合なしでWERを最大12.4%削減する。
論文 参考訳(メタデータ) (2022-10-31T03:56:37Z) - Integrate Lattice-Free MMI into End-to-End Speech Recognition [87.01137882072322]
音声認識(ASR)研究において、識別基準はDNN-HMMシステムにおいて優れた性能を達成している。
このモチベーションにより、差別的基準の採用は、エンドツーエンド(E2E)のASRシステムの性能を高めることを約束している。
これまでの研究は、最小ベイズリスク(MBR、差別基準の一つ)をE2E ASRシステムに導入してきた。
本研究では,他の広く使われている識別基準であるLF-MMIをE2Eに統合する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-29T14:32:46Z) - Improving Hybrid CTC/Attention End-to-end Speech Recognition with
Pretrained Acoustic and Language Model [4.490054848527943]
本稿では,ハイブリッドCTC/アテンションE2Eモデルに基づく事前学習型トランスフォーマー(Preformer)S2S ASRアーキテクチャを提案する。
我々の知る限り、これはS2S ASRシステムで事前訓練されたAMとLMの両方を利用する最初の作業である。
論文 参考訳(メタデータ) (2021-12-14T09:38:31Z) - A Mixture of Expert Based Deep Neural Network for Improved ASR [4.993304210475779]
MixNetは、音声認識(ASR)における音響モデルのための新しいディープラーニングアーキテクチャである
自然言語では、異なる音響クラスにまたがる分布の重複は避けられないため、クラス間の誤分類につながる。
提案手法は,単語誤り率の13.6%と10.0%を相対的に削減できることを示す。
論文 参考訳(メタデータ) (2021-12-02T07:26:34Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。