論文の概要: Hybrid Attention-based Encoder-decoder Model for Efficient Language Model Adaptation
- arxiv url: http://arxiv.org/abs/2309.07369v2
- Date: Sat, 14 Sep 2024 22:31:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 03:47:44.934917
- Title: Hybrid Attention-based Encoder-decoder Model for Efficient Language Model Adaptation
- Title(参考訳): 言語モデル適応のためのハイブリッドアテンションベースエンコーダデコーダモデル
- Authors: Shaoshi Ling, Guoli Ye, Rui Zhao, Yifan Gong,
- Abstract要約: 本稿では,新しい注目型エンコーダデコーダ(HAED)音声認識モデルを提案する。
本モデルでは,アコースティックモデルと言語モデルとを分離し,従来のテキストベース言語モデル適応技術の利用を可能にする。
提案したHAEDモデルは,言語モデル適応にドメイン外テキストデータを使用する場合,相対的単語誤り率(WER)が23%向上することが実証された。
- 参考スコア(独自算出の注目度): 13.16188747098854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The attention-based encoder-decoder (AED) speech recognition model has been widely successful in recent years. However, the joint optimization of acoustic model and language model in end-to-end manner has created challenges for text adaptation. In particular, effective, quick and inexpensive adaptation with text input has become a primary concern for deploying AED systems in the industry. To address this issue, we propose a novel model, the hybrid attention-based encoder-decoder (HAED) speech recognition model that preserves the modularity of conventional hybrid automatic speech recognition systems. Our HAED model separates the acoustic and language models, allowing for the use of conventional text-based language model adaptation techniques. We demonstrate that the proposed HAED model yields 23% relative Word Error Rate (WER) improvements when out-of-domain text data is used for language model adaptation, with only a minor degradation in WER on a general test set compared with the conventional AED model.
- Abstract(参考訳): 近年,注目型エンコーダデコーダ(AED)音声認識モデルが広く普及している。
しかし, 音素モデルと言語モデルの協調最適化は, テキスト適応の課題を生み出している。
特に、テキスト入力への効果的で迅速で安価な適応は、業界にAEDシステムを展開する上で主要な関心事となっている。
この問題に対処するために,従来のハイブリッド音声認識システムのモジュール性を維持するハイブリッドアテンションベースのエンコーダデコーダ(HAED)音声認識モデルを提案する。
我々のHAEDモデルはアコースティックモデルと言語モデルとを分離し、従来のテキストベース言語モデル適応技術を利用することを可能にした。
提案したHAEDモデルでは,言語モデル適応にドメイン外テキストデータを使用する場合の単語誤り率(WER)が23%向上することが実証された。
関連論文リスト
- Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - Gated Low-rank Adaptation for personalized Code-Switching Automatic Speech Recognition on the low-spec devices [28.06179341376626]
性能劣化を最小限に抑えたパラメータ効率の良い微調整のためのゲートローランク適応(GLoRA)を導入する。
韓国語と英語のコードスイッチングデータセットを用いて実験を行い、コードスイッチングのための微調整音声認識モデルが、スクラッチから訓練された従来のコードスイッチング音声認識モデルの性能を上回ることを示した。
論文 参考訳(メタデータ) (2024-04-24T01:31:39Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Feature Normalization for Fine-tuning Self-Supervised Models in Speech
Enhancement [19.632358491434697]
自己教師付き学習を用いて訓練された大規模で事前訓練された表現モデルは、機械学習の様々な分野で人気を集めている。
本稿では,下流音声強調タスクにおける事前学習音声表現モデルの有用性について検討する。
提案手法は, 各種事前学習音声モデルと組み合わせることで, ベースラインと比較して, 音声品質を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-06-14T10:03:33Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Early Stage LM Integration Using Local and Global Log-Linear Combination [46.91755970827846]
暗黙のアライメント機構を持つシーケンス対シーケンスモデル(例えば注意)は、従来のハイブリッド隠れマルコフモデル(HMM)に対するパフォーマンスギャップを埋めている。
両方のケースで単語エラー率を改善する重要な要因は、大きなテキストのみのコーパスでトレーニングされた外部言語モデル(LM)を使用することである。
暗黙アライメントに基づくシーケンス・ツー・シーケンスモデルに言語モデルを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-20T13:49:55Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Hybrid Autoregressive Transducer (hat) [11.70833387055716]
本稿では,ハイブリッド自己回帰トランスデューサ(HAT)モデルの提案と評価を行う。
従来の音声認識システムのモジュラリティを保った時間同期エンコーダデコーダモデルである。
提案手法を大規模音声検索タスクで評価する。
論文 参考訳(メタデータ) (2020-03-12T20:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。