論文の概要: Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR
Customization
- arxiv url: http://arxiv.org/abs/2309.17267v1
- Date: Fri, 29 Sep 2023 14:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 13:35:23.524405
- Title: Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR
Customization
- Title(参考訳): Wiki-En-ASR-Adapt:英語ASRカスタマイズのための大規模合成データセット
- Authors: Alexandra Antonova
- Abstract要約: 自動音声認識(ASR)のコンテキストスペルチェックカスタマイズのための,最初の大規模公開合成データセットを提案する。
提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。
提案したデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,ハードネガティブなバイアスフレーズの注入がWERを減少させ,誤報の回数を減少させることを示す。
- 参考スコア(独自算出の注目度): 66.22007368434633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a first large-scale public synthetic dataset for contextual
spellchecking customization of automatic speech recognition (ASR) with focus on
diverse rare and out-of-vocabulary (OOV) phrases, such as proper names or
terms. The proposed approach allows creating millions of realistic examples of
corrupted ASR hypotheses and simulate non-trivial biasing lists for the
customization task. Furthermore, we propose injecting two types of ``hard
negatives" to the simulated biasing lists in training examples and describe our
procedures to automatically mine them. We report experiments with training an
open-source customization model on the proposed dataset and show that the
injection of hard negative biasing phrases decreases WER and the number of
false alarms.
- Abstract(参考訳): 本稿では,音声認識(asr)の文脈的綴りチェックのための最初の大規模合成データセットを,固有名称や用語など,多様な希少かつ語彙外(oov)句に着目して紹介する。
提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。
さらに,訓練例のバイアスリストに対して2種類の‘hard negatives’を注入し,自動的にマイニングする手順について述べる。
提案するデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,強負のバイアスフレーズの注入がwar減少し,誤報の回数が減少することを示す。
関連論文リスト
- Attacking Misinformation Detection Using Adversarial Examples Generated by Language Models [0.0]
テキスト分類アルゴリズムのロバスト性をテストするために,逆例を生成するという課題について検討する。
我々は、攻撃者が試すことができるクエリ数に現実的な制限を設定することで、コンテンツモデレーションのシミュレーションに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-28T11:46:30Z) - Self-Adaptive Reconstruction with Contrastive Learning for Unsupervised
Sentence Embeddings [24.255946996327104]
教師なし文埋め込みタスクは、文を意味ベクトル表現に変換することを目的としている。
事前訓練された言語モデルにおけるトークンバイアスのため、モデルは文中のきめ細かいセマンティクスをキャプチャできない。
本稿では,新たな自己適応型コントラスト文埋め込みフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-23T07:28:31Z) - Contextualized Automatic Speech Recognition with Attention-Based Bias
Phrase Boosted Beam Search [44.94458898538114]
本稿では、編集可能なフレーズリストを用いてカスタマイズ可能な、注意に基づくコンテキストバイアス手法を提案する。
提案手法は、入力音声データ中のバイアスフレーズを検出するために、バイアスフレーズインデックス損失と特別なトークンを組み合わせることで効果的に訓練することができる。
論文 参考訳(メタデータ) (2024-01-19T01:36:07Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Finding Support Examples for In-Context Learning [73.90376920653507]
本稿では,この課題を2段階に解決するためのfilter-thEN-Search法であるLENSを提案する。
まず、データセットをフィルタリングして、個別に情報的インコンテキストの例を得る。
そこで本研究では,反復的に改良し,選択したサンプル順列を評価可能な多様性誘導型サンプル探索を提案する。
論文 参考訳(メタデータ) (2023-02-27T06:32:45Z) - Towards Contextual Spelling Correction for Customization of End-to-end
Speech Recognition Systems [27.483603895258437]
そこで本研究では,文脈的スペル補正モデルをエンド・ツー・エンドのASRシステム上に付加することで,コンテキストバイアスを行う新しい手法を提案する。
本稿では,大規模コンテキストリストを扱うフィルタリングアルゴリズムと,モデルのバイアス度を制御する性能バランス機構を提案する。
実験の結果,提案手法はASRシステムよりも51%の相対単語誤り率(WER)の低減を実現し,従来のバイアス法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-02T06:00:48Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。