論文の概要: UserLibri: A Dataset for ASR Personalization Using Only Text
- arxiv url: http://arxiv.org/abs/2207.00706v1
- Date: Sat, 2 Jul 2022 01:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-09 12:07:35.388147
- Title: UserLibri: A Dataset for ASR Personalization Using Only Text
- Title(参考訳): UserLibri: テキストのみを使用したASRパーソナライズのためのデータセット
- Authors: Theresa Breiner, Swaroop Ramaswamy, Ehsan Variani, Shefali Garg, Rajiv
Mathews, Khe Chai Sim, Kilol Gupta, Mingqing Chen, Lara McConnaughey
- Abstract要約: モバイル端末における音声モデルのパーソナライズ(オンデバイスパーソナライズ)は、活発な研究分野であるが、多くの場合、モバイル端末はペア化された音声テキストデータよりもテキストのみのデータを持っている。
本研究では,テキストのみのデータを用いたパーソナライズされた言語モデルの訓練について検討する。
- 参考スコア(独自算出の注目度): 8.238747709874684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalization of speech models on mobile devices (on-device
personalization) is an active area of research, but more often than not, mobile
devices have more text-only data than paired audio-text data. We explore
training a personalized language model on text-only data, used during inference
to improve speech recognition performance for that user. We experiment on a
user-clustered LibriSpeech corpus, supplemented with personalized text-only
data for each user from Project Gutenberg. We release this User-Specific
LibriSpeech (UserLibri) dataset to aid future personalization research.
LibriSpeech audio-transcript pairs are grouped into 55 users from the
test-clean dataset and 52 users from test-other. We are able to lower the
average word error rate per user across both sets in streaming and nonstreaming
models, including an improvement of 2.5 for the harder set of test-other users
when streaming.
- Abstract(参考訳): モバイル端末における音声モデルのパーソナライズ(オンデバイスパーソナライズ)は、活発な研究分野であるが、多くの場合、モバイル端末はペア化された音声テキストデータよりもテキストのみのデータを持っている。
本研究では,テキストのみのデータを用いたパーソナライズされた言語モデルの訓練について検討する。
我々は,Project Gutenbergのユーザ毎のパーソナライズされたテキスト専用データを補足した,ユーザクラスタのLibriSpeechコーパスの実験を行った。
今後のパーソナライズ研究を支援するために、このUser-Specific LibriSpeech(UserLibri)データセットをリリースする。
LibriSpeechオーディオ書き起こしペアは、テストクリーンデータセットから55ユーザ、テスト他から52ユーザに分けられる。
ストリーミングと非ストリーミングモデルの両方のセットでユーザ毎の平均単語エラー率を下げることができます。
関連論文リスト
- Gibberish is All You Need for Membership Inference Detection in Contrastive Language-Audio Pretraining [3.7144455366570055]
既存のMIAは入力としてオーディオを必要とし、音声プリントの露出を危険にさらし、コストのかかるシャドウモデルを必要とする。
我々はまず,CLAPが与える会員推論検出に基づく確率ランキングである PRMID を提案し,訓練シャドウモデルを必要としない。
次に,テキストデータのみを用いて対象モデルを問合せする一助話者レベルメンバシップ推定器USMIDを提案する。
論文 参考訳(メタデータ) (2024-10-24T02:26:57Z) - Distance Sampling-based Paraphraser Leveraging ChatGPT for Text Data Manipulation [15.765495448426904]
本稿では,音声検索タスクにおけるデータ不均衡問題に対処する新しい手法を提案する。
ChatGPTを利用した距離サンプリングに基づくパラフレーズは、操作されたテキストデータの制御可能な分布を生成する。
提案手法は音声テキスト検索の性能を大幅に向上させ,従来のテキスト拡張手法よりも優れていた。
論文 参考訳(メタデータ) (2024-05-01T07:44:28Z) - Enabling On-Device Large Language Model Personalization with Self-Supervised Data Selection and Synthesis [27.792167318819068]
本稿では,オンライン上で最も代表的なデータを自己管理的に選択・保存するための新しいフレームワークを提案する。
実験の結果,提案フレームワークは,バニラベースラインと比較して,ユーザ固有のコンテンツ生成能力(精度)と微調整速度(性能)に優れていた。
論文 参考訳(メタデータ) (2023-11-21T01:34:02Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - AdaSpeech: Adaptive Text to Speech for Custom Voice [104.69219752194863]
新しい音声の高品質かつ効率的なカスタマイズのための適応型TSシステムであるAdaSpeechを提案する。
実験結果から,AdaSpeechはベースライン法よりも適応性が高く,話者毎のパラメータは5K程度であった。
論文 参考訳(メタデータ) (2021-03-01T13:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。