Fugu-MT 論文翻訳(概要): Hybrid Attention-based Encoder-decoder Model for Efficient Language Model Adaptation

論文の概要: Hybrid Attention-based Encoder-decoder Model for Efficient Language Model Adaptation

arxiv url: http://arxiv.org/abs/2309.07369v1
Date: Thu, 14 Sep 2023 01:07:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-15 16:40:17.083436
Title: Hybrid Attention-based Encoder-decoder Model for Efficient Language Model Adaptation
Title（参考訳）: 言語モデル適応のためのハイブリッド注意型エンコーダ・デコーダモデル
Authors: Shaoshi Ling, Guoli Ye, Rui Zhao, Yifan Gong
Abstract要約: 本稿では,新しい注目型エンコーダデコーダ(HAED)音声認識モデルを提案する。本モデルでは,アコースティックモデルと言語モデルとを分離し,従来のテキストベース言語モデル適応技術の利用を可能にする。提案したHAEDモデルは、言語モデル適応にドメイン外テキストデータを使用する場合、相対的に21%のワード誤り率(WER)が向上することを示した。
参考スコア（独自算出の注目度）: 14.378416518505999
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Attention-based encoder-decoder (AED) speech recognition model has been widely successful in recent years. However, the joint optimization of acoustic model and language model in end-to-end manner has created challenges for text adaptation. In particular, effectively, quickly and inexpensively adapting text has become a primary concern for deploying AED systems in industry. To address this issue, we propose a novel model, the hybrid attention-based encoder-decoder (HAED) speech recognition model that preserves the modularity of conventional hybrid automatic speech recognition systems. Our HAED model separates the acoustic and language models, allowing for the use of conventional text-based language model adaptation techniques. We demonstrate that the proposed HAED model yields 21\% Word Error Rate (WER) improvements in relative when out-of-domain text data is used for language model adaptation, and with only a minor degradation in WER on a general test set compared with conventional AED model.
Abstract（参考訳）: 近年,注意型エンコーダデコーダ(AED)音声認識モデルが広く普及している。しかし, 音素モデルと言語モデルの協調最適化は, テキスト適応の課題を生み出している。特に、テキストを迅速かつ安価に適応させることが、業界にAEDシステムを展開する上で主要な関心事となっている。この問題に対処するために,従来のハイブリッド自動音声認識システムのモジュラリティを保った,ハイブリッド型注意型エンコーダデコーダ(haed)音声認識モデルを提案する。我々のHAEDモデルはアコースティックモデルと言語モデルとを分離し、従来のテキストベース言語モデル適応技術の使用を可能にする。提案したHAEDモデルでは,言語モデル適応にドメイン外テキストデータを使用する場合の単語誤り率(WER)が21\%向上し,従来のAEDモデルと比較して,一般的なテストセット上でのWERの低下がわずかであることを示す。

関連論文リスト

How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文参考訳（メタデータ） (2024-09-15T16:32:49Z)
Gated Low-rank Adaptation for personalized Code-Switching Automatic Speech Recognition on the low-spec devices [28.06179341376626]
性能劣化を最小限に抑えたパラメータ効率の良い微調整のためのゲートローランク適応(GLoRA)を導入する。韓国語と英語のコードスイッチングデータセットを用いて実験を行い、コードスイッチングのための微調整音声認識モデルが、スクラッチから訓練された従来のコードスイッチング音声認識モデルの性能を上回ることを示した。
論文参考訳（メタデータ） (2024-04-24T01:31:39Z)
SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。 SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文参考訳（メタデータ） (2024-01-24T15:25:01Z)
Feature Normalization for Fine-tuning Self-Supervised Models in Speech Enhancement [19.632358491434697]
自己教師付き学習を用いて訓練された大規模で事前訓練された表現モデルは、機械学習の様々な分野で人気を集めている。本稿では,下流音声強調タスクにおける事前学習音声表現モデルの有用性について検討する。提案手法は, 各種事前学習音声モデルと組み合わせることで, ベースラインと比較して, 音声品質を著しく向上させることができる。
論文参考訳（メタデータ） (2023-06-14T10:03:33Z)
Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文参考訳（メタデータ） (2021-09-27T15:04:00Z)
Early Stage LM Integration Using Local and Global Log-Linear Combination [46.91755970827846]
暗黙のアライメント機構を持つシーケンス対シーケンスモデル(例えば注意)は、従来のハイブリッド隠れマルコフモデル(HMM)に対するパフォーマンスギャップを埋めている。両方のケースで単語エラー率を改善する重要な要因は、大きなテキストのみのコーパスでトレーニングされた外部言語モデル(LM)を使用することである。暗黙アライメントに基づくシーケンス・ツー・シーケンスモデルに言語モデルを統合する新しい手法を提案する。
論文参考訳（メタデータ） (2020-05-20T13:49:55Z)
Improve Variational Autoencoder for Text Generationwith Discrete Latent Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。 VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文参考訳（メタデータ） (2020-04-22T14:41:37Z)
Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文参考訳（メタデータ） (2020-03-17T22:01:12Z)
Hybrid Autoregressive Transducer (hat) [11.70833387055716]
本稿では,ハイブリッド自己回帰トランスデューサ(HAT)モデルの提案と評価を行う。従来の音声認識システムのモジュラリティを保った時間同期エンコーダデコーダモデルである。提案手法を大規模音声検索タスクで評価する。
論文参考訳（メタデータ） (2020-03-12T20:47:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。