論文の概要: Boosting Hybrid Autoregressive Transducer-based ASR with Internal Acoustic Model Training and Dual Blank Thresholding
- arxiv url: http://arxiv.org/abs/2409.20313v1
- Date: Mon, 30 Sep 2024 14:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 07:56:35.982305
- Title: Boosting Hybrid Autoregressive Transducer-based ASR with Internal Acoustic Model Training and Dual Blank Thresholding
- Title(参考訳): 内部音響モデルトレーニングとデュアルブランク閾値を併用したハイブリッド自己回帰トランスデューサを用いたASR
- Authors: Takafumi Moriya, Takanori Ashihara, Masato Mimura, Hiroshi Sato, Kohei Matsuura, Ryo Masumura, Taichi Asami,
- Abstract要約: HATに基づく音声認識を強化する内部音響モデル(IAM)訓練戦略
IAMはエンコーダとジョイントネットワークで構成されており、完全に共有され、HATと共同で訓練されている。
- 参考スコア(独自算出の注目度): 35.29443802809237
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A hybrid autoregressive transducer (HAT) is a variant of neural transducer that models blank and non-blank posterior distributions separately. In this paper, we propose a novel internal acoustic model (IAM) training strategy to enhance HAT-based speech recognition. IAM consists of encoder and joint networks, which are fully shared and jointly trained with HAT. This joint training not only enhances the HAT training efficiency but also encourages IAM and HAT to emit blanks synchronously which skips the more expensive non-blank computation, resulting in more effective blank thresholding for faster decoding. Experiments demonstrate that the relative error reductions of the HAT with IAM compared to the vanilla HAT are statistically significant. Moreover, we introduce dual blank thresholding, which combines both HAT- and IAM-blank thresholding and a compatible decoding algorithm. This results in a 42-75% decoding speed-up with no major performance degradation.
- Abstract(参考訳): ハイブリッド自己回帰トランスデューサ(英: hybrid autoregressive Transducer、HAT)は、ブランクと非ブランクの後方分布を別々にモデル化したニューラルトランスデューサの一種である。
本稿では,HATに基づく音声認識を強化するための新しい内部音響モデル(IAM)トレーニング戦略を提案する。
IAMはエンコーダとジョイントネットワークで構成されており、完全に共有され、HATと共同で訓練されている。
この共同トレーニングは、HATトレーニング効率を向上するだけでなく、IAMとHATは同期的にブランクを出力し、より高価な非ブランク計算をスキップする。
実験により、バニラHATと比較してHATとIAMの相対誤差の減少が統計的に有意であることが示された。
さらに,HAT-およびIAM-ブランクしきい値と互換性のある復号アルゴリズムを組み合わせた二重空白しきい値処理を導入する。
その結果、42-75%のデコード速度が向上し、性能が大幅に低下することはなかった。
関連論文リスト
- Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - Adapters Mixup: Mixing Parameter-Efficient Adapters to Enhance the Adversarial Robustness of Fine-tuned Pre-trained Text Classifiers [9.250758784663411]
AdpMixupは、アダプタによる微調整とミックスアップによる敵の増強を組み合わせて、堅牢な推論のために既存の知識を動的に活用する。
実験によると、AdpMixupは、既知の攻撃と未知の攻撃の両方において、トレーニング効率と堅牢性の間の最良のトレードオフを達成する。
論文 参考訳(メタデータ) (2024-01-18T16:27:18Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Neural Fast Full-Rank Spatial Covariance Analysis for Blind Source
Separation [26.6020148790775]
本稿では,ニューラルネットワーク分離モデルに対する効率的な教師なし学習手法について述べる。
本稿では,結合対角化可能なフルランク空間モデルに基づくニューラルFastFCAを提案する。
2〜4つの音源の混合信号を用いた実験により、ニューラルFastFCAは従来のBSS法よりも優れていた。
論文 参考訳(メタデータ) (2023-06-17T02:50:17Z) - Modular Hybrid Autoregressive Transducer [51.29870462504761]
トランスデューサモデルのテキストのみの適応は、エンドツーエンド音声認識では依然として困難である。
ラベルとブランクデコーダを構造的に分離したモジュール型ハイブリッド自己回帰トランスデューサを提案する。
Googleの大規模生産データでは、100B文に適合したマルチドメインのMHATが、LM融合なしでWERを最大12.4%削減する。
論文 参考訳(メタデータ) (2022-10-31T03:56:37Z) - Integrate Lattice-Free MMI into End-to-End Speech Recognition [87.01137882072322]
音声認識(ASR)研究において、識別基準はDNN-HMMシステムにおいて優れた性能を達成している。
このモチベーションにより、差別的基準の採用は、エンドツーエンド(E2E)のASRシステムの性能を高めることを約束している。
これまでの研究は、最小ベイズリスク(MBR、差別基準の一つ)をE2E ASRシステムに導入してきた。
本研究では,他の広く使われている識別基準であるLF-MMIをE2Eに統合する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-29T14:32:46Z) - Improving Hybrid CTC/Attention End-to-end Speech Recognition with
Pretrained Acoustic and Language Model [4.490054848527943]
本稿では,ハイブリッドCTC/アテンションE2Eモデルに基づく事前学習型トランスフォーマー(Preformer)S2S ASRアーキテクチャを提案する。
我々の知る限り、これはS2S ASRシステムで事前訓練されたAMとLMの両方を利用する最初の作業である。
論文 参考訳(メタデータ) (2021-12-14T09:38:31Z) - A Mixture of Expert Based Deep Neural Network for Improved ASR [4.993304210475779]
MixNetは、音声認識(ASR)における音響モデルのための新しいディープラーニングアーキテクチャである
自然言語では、異なる音響クラスにまたがる分布の重複は避けられないため、クラス間の誤分類につながる。
提案手法は,単語誤り率の13.6%と10.0%を相対的に削減できることを示す。
論文 参考訳(メタデータ) (2021-12-02T07:26:34Z) - Investigating Methods to Improve Language Model Integration for
Attention-based Encoder-Decoder ASR Models [107.86965028729517]
注意ベースのエンコーダデコーダ(AED)モデルは、トレーニング転写から暗黙的な内部言語モデル(ILM)を学ぶ。
AEDモデルから直接ILMを推定する新しい手法をいくつか提案する。
論文 参考訳(メタデータ) (2021-04-12T15:16:03Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。