論文の概要: A Deliberation-based Joint Acoustic and Text Decoder
- arxiv url: http://arxiv.org/abs/2303.15293v1
- Date: Thu, 23 Mar 2023 18:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 14:47:43.526429
- Title: A Deliberation-based Joint Acoustic and Text Decoder
- Title(参考訳): 検討に基づく共同音響・テキストデコーダ
- Authors: Sepand Mavandadi, Tara N. Sainath, Ke Hu, Zelin Wu
- Abstract要約: 本稿では,ペア化データと未ペア化テキストデータの組み合わせによるトレーニングにより,ASRの性能を向上させる2パスE2E音声認識モデルを提案する。
提案手法は,Dreliberation-JATDとJATDの非ペアテキストデータを用いたスペル訂正機能を組み合わせて,さらなる性能向上を図る。
- 参考スコア(独自算出の注目度): 25.37972380217875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new two-pass E2E speech recognition model that improves ASR
performance by training on a combination of paired data and unpaired text data.
Previously, the joint acoustic and text decoder (JATD) has shown promising
results through the use of text data during model training and the recently
introduced deliberation architecture has reduced recognition errors by
leveraging first-pass decoding results. Our method, dubbed Deliberation-JATD,
combines the spelling correcting abilities of deliberation with JATD's use of
unpaired text data to further improve performance. The proposed model produces
substantial gains across multiple test sets, especially those focused on rare
words, where it reduces word error rate (WER) by between 12% and 22.5%
relative. This is done without increasing model size or requiring multi-stage
training, making Deliberation-JATD an efficient candidate for on-device
applications.
- Abstract(参考訳): ペア化データと未ペア化テキストデータの組み合わせを訓練することにより、ASRの性能を向上させる2パスE2E音声認識モデルを提案する。
従来,JATD(Joint Acoustic and Text Decoder)は,モデルトレーニング中にテキストデータを使用することで,有望な結果を示した。
提案手法は,Dreliberation-JATDとJATDの非ペアテキストデータを用いたスペル訂正機能を組み合わせて,さらなる性能向上を図る。
提案手法は, 単語誤り率 (WER) を12%から22.5%の相対値で低減し, 複数のテストセット, 特にまれな単語に焦点をあてた場合において, かなりの利得が得られる。
これはモデルのサイズを拡大したり、マルチステージのトレーニングを必要とすることなく実現される。
関連論文リスト
- Text Injection for Capitalization and Turn-Taking Prediction in Speech
Models [45.94388391693112]
本研究では,E2Eモデルでしばしば実行される非ASRタスクである補助タスクに対するテキストインジェクションの利用について検討する。
テキストインジェクション法により,長期データに対するキャピタライゼーション性能が向上することを示す。
論文 参考訳(メタデータ) (2023-08-14T18:28:04Z) - TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization [54.41494515178297]
話者ダイアリゼーションを単一ラベル分類問題として再検討する。
話者の重なりと依存性を明示的にモデル化できる重なり認識型EEND(EEND-OLA)モデルを提案する。
オリジナルのEENDと比較すると、提案されたEEND-OLAはダイアリゼーションエラー率において14.39%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-03-08T05:05:26Z) - Speech-text based multi-modal training with bidirectional attention for
improved speech recognition [26.47071418582507]
ASRエンコーダ(ボット層)とテキストエンコーダ(テキストエンコーダ)をマルチモーダル学習法で共同学習するために,新しい双方向アテンション機構(BiAM)を提案する。
BiAMは特徴サンプリングレートの交換を促進することを目的としており、別の空間で測定すべきものに対する変換された特徴の品質を実現する。
Librispeech corpusの実験結果から、ペアデータ学習のみで最大6.15%のワードエラー率削減(WERR)を達成でき、また、より不適切なテキストデータを使用すると9.23%のWERRを実現することができる。
論文 参考訳(メタデータ) (2022-11-01T08:25:11Z) - JOIST: A Joint Speech and Text Streaming Model For ASR [63.15848310748753]
JOISTは、音声テキストのペア入力とテキストのみのアンペア入力の両方で、ストリーミング、カスケード、エンコーダエンドツーエンド(E2E)モデルを訓練するアルゴリズムである。
JOISTの最良のテキスト表現は、テキストで訓練されていないモデルと比較して、様々な検索およびレアワードテストセットのWERを4-14%改善することがわかった。
論文 参考訳(メタデータ) (2022-10-13T20:59:22Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation [91.16551253297588]
Counterfactual Generation via Retrieval and Editing (CORE) は、トレーニングのための多様な反事実摂動を生成するための検索強化された生成フレームワークである。
COREはまず、学習されたバイエンコーダを用いて、タスク関連未ラベルテキストコーパス上で密集した検索を行う。
COREはこれらを、反ファクト編集のために、数ショットの学習機能を備えた大規模な言語モデルへのプロンプトに組み込む。
論文 参考訳(メタデータ) (2022-10-10T17:45:38Z) - Improving Deliberation by Text-Only and Semi-Supervised Training [42.942428288428836]
本稿では,テキストのみによる半教師付きトレーニングを,注意に基づく検討モデルに取り入れることを提案する。
基準検討と比較して, WER の 4%-12% 削減を実現している。
また, 検討モデルにより, 肯定的な評価がもたらされることが示唆された。
論文 参考訳(メタデータ) (2022-06-29T15:30:44Z) - Text-Aware End-to-end Mispronunciation Detection and Diagnosis [17.286013739453796]
誤認識検出・診断(MDD)技術はコンピュータ支援発音訓練システム(CAPT)の鍵となる要素である
本稿では,関係のないテキスト情報を抑えつつ,関連する音声特徴をより重要視するゲーティング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-15T04:08:10Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。