論文の概要: Improving Data Driven Inverse Text Normalization using Data Augmentation
- arxiv url: http://arxiv.org/abs/2207.09674v1
- Date: Wed, 20 Jul 2022 06:07:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 12:55:17.763927
- Title: Improving Data Driven Inverse Text Normalization using Data Augmentation
- Title(参考訳): データ拡張を用いた逆テキスト正規化の改善
- Authors: Laxmi Pandey, Debjyoti Paul, Pooja Chitkara, Yutong Pang, Xuedong
Zhang, Kjell Schubert, Mark Chou, Shu Liu, Yatharth Saraf
- Abstract要約: 逆テキスト正規化(ITN)は、自動音声認識(ASR)システムの音声フォーム出力を書式に変換するために用いられる。
本稿では、ドメイン外のテキストデータからリッチな音声による数値ペアを効果的に生成するデータ拡張手法を提案する。
我々は、データ拡張技術を用いてトレーニングしたITNモデルが、ドメイン内データのみを用いてトレーニングしたITNモデルより一貫して優れていることを実証的に実証した。
- 参考スコア(独自算出の注目度): 14.820077884045645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse text normalization (ITN) is used to convert the spoken form output of
an automatic speech recognition (ASR) system to a written form. Traditional
handcrafted ITN rules can be complex to transcribe and maintain. Meanwhile
neural modeling approaches require quality large-scale spoken-written pair
examples in the same or similar domain as the ASR system (in-domain data), to
train. Both these approaches require costly and complex annotations. In this
paper, we present a data augmentation technique that effectively generates rich
spoken-written numeric pairs from out-of-domain textual data with minimal human
annotation. We empirically demonstrate that ITN model trained using our data
augmentation technique consistently outperform ITN model trained using only
in-domain data across all numeric surfaces like cardinal, currency, and
fraction, by an overall accuracy of 14.44%.
- Abstract(参考訳): 逆テキスト正規化(ITN)は、自動音声認識(ASR)システムの音声フォーム出力を書式に変換するために用いられる。
従来の手作りITNルールは、書き起こしとメンテナンスが複雑である。
一方、ニューラルネットワークアプローチでは、ASRシステム(ドメイン内データ)と同じまたは類似のドメインで、高品質な音声書きペアの例をトレーニングする必要がある。
これらのアプローチにはどちらもコストと複雑なアノテーションが必要です。
本稿では,人間が最小限のアノテーションで,ドメイン外のテキストデータからリッチな数値対を効果的に生成するデータ拡張手法を提案する。
私たちは、我々のデータ拡張技術を用いてトレーニングされたITNモデルが、基数、通貨、分数などのすべての数値面にわたるドメイン内データのみを使用してトレーニングされたITNモデルを、全体的な精度14.44%で一貫して上回っていることを実証的に実証した。
関連論文リスト
- Alignment-Free Training for Transducer-based Multi-Talker ASR [55.1234384771616]
マルチストーカーRNNT(MT-RNNT)は、フロントエンドのソース分離を犠牲にすることなく、認識を実現することを目的としている。
本稿では,MT-RNNTアーキテクチャを採用したMT-RNNT(MT-RNNT-AFT)のアライメントフリートレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-09-30T13:58:11Z) - Text-To-Speech Synthesis In The Wild [76.71096751337888]
テキスト音声システム(TTS)は、伝統的にスタジオ品質の控えめなデータベースを用いて訓練されている。
本稿では,話者認識に一般的に使用されるVoxCeleb1データセットに適用した,完全に自動化されたパイプラインの結果であるTS In the Wild (TITW)データセットを紹介する。
我々は、TITW-Easyを用いて、最近の多くのTSモデルをうまくトレーニングできることを示し、TITW-Hardを用いて同様の結果を生成することは極めて困難である。
論文 参考訳(メタデータ) (2024-09-13T10:58:55Z) - Handling Numeric Expressions in Automatic Speech Recognition [56.972851337263755]
数値表現の認識と形式化のためのケースドとエンド・ツー・エンドのアプローチを比較した。
その結果,適応型エンドツーエンドモデルでは,低レイテンシと推論コストの利点を生かして,競争性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-18T09:46:19Z) - Improving Robustness of Neural Inverse Text Normalization via
Data-Augmentation, Semi-Supervised Learning, and Post-Aligning Method [4.343606621506086]
逆テキスト正規化(ITN)は、特に自動音声認識(ASR)の文脈において、音声形式を書字形式に変換する上で重要である
本稿では,ASR 言語文脈エミュレーションによるペアの強化と,大規模言語モデルにより強化された半教師付き学習手法を用いて,ASR 生成したテキストや音声テキストを利用するダイレクトトレーニング手法を提案する。
提案手法は,様々なASRシナリオにおけるITN性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-12T06:05:57Z) - Text-only domain adaptation for end-to-end ASR using integrated
text-to-mel-spectrogram generator [17.44686265224974]
本稿では, テキストのみのデータ, あるいは混在した音声データに基づいて, エンドツーエンドの自動音声認識(ASR)システムを提案する。
提案手法は,書き起こし音声のみを訓練したシステムと比較して,ASRの精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-02-27T18:47:55Z) - A Simple Baseline for Domain Adaptation in End to End ASR Systems Using
Synthetic Data [1.14219428942199]
エンドツーエンド音声認識モデルにおけるドメイン適応のための簡単なベースライン手法を提案する。
テキストのみのコーパスを単一話者テキスト音声(TTS)エンジンを用いて音声データに変換する。
単一話者合成TTSデータと最終密度層を結合した微調整が単語誤り率の合理的な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:07:38Z) - A Likelihood Ratio based Domain Adaptation Method for E2E Models [10.510472957585646]
Recurrent Neural Networks Transducer (RNN-T)のようなエンドツーエンド(E2E)自動音声認識モデルは、音声アシスタントのようなASRアプリケーションをストリーミングするための一般的な選択肢になりつつある。
E2Eモデルはトレーニング対象のトレーニングデータの表現を学習するのに非常に効果的だが、未確認領域での精度は依然として難しい問題である。
本研究では、テキストデータソースを活用してRNN-Tモデルを新しいドメインやエンティティに適用する、確率比を用いたコンテキストバイアス手法について検討する。
論文 参考訳(メタデータ) (2022-01-10T21:22:39Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - A Unified Transformer-based Framework for Duplex Text Normalization [33.90810154067128]
テキスト正規化(TN)と逆テキスト正規化(ITN)は、音声合成と自動音声認識において必要不可欠な前処理および後処理ステップである。
本稿では,TNとITNを同時に処理できる単一ニューラルデュプレックスシステムを構築するための統一的なフレームワークを提案する。
我々のシステムは、英語とロシア語のGoogle TNデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-08-23T01:55:03Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Few-shot Natural Language Generation for Task-Oriented Dialog [113.07438787659859]
FewShotWozは,タスク指向対話システムにおける数ショットの学習設定をシミュレートする最初の NLG ベンチマークである。
我々は, SC-GPTモデルを開発し, その制御可能な生成能力を得るために, 注釈付きNLGコーパスの大規模なセットで事前学習を行った。
FewShotWozとMulti-Domain-WOZデータセットの実験は、提案したSC-GPTが既存の手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-02-27T18:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。