論文の概要: Libri-Adapt: A New Speech Dataset for Unsupervised Domain Adaptation
- arxiv url: http://arxiv.org/abs/2009.02814v1
- Date: Sun, 6 Sep 2020 20:47:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 08:42:28.121347
- Title: Libri-Adapt: A New Speech Dataset for Unsupervised Domain Adaptation
- Title(参考訳): Libri-Adapt: 教師なしドメイン適応のための新しい音声データセット
- Authors: Akhil Mathur, Fahim Kawsar, Nadia Berthouze, Nicholas D. Lane
- Abstract要約: 本稿では,音声認識モデルにおける教師なし領域適応研究を支援するために,新しいデータセットLibri-Adaptを提案する。
72の異なるドメインにまたがっており、ASRモデルで遭遇する困難な実践シナリオを表している。
ドメインシフトがMozilla DeepSpeech2 ASRモデルに与える影響を定量化するベースライン結果をいくつか提供します。
- 参考スコア(独自算出の注目度): 23.053545831487547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a new dataset, Libri-Adapt, to support unsupervised
domain adaptation research on speech recognition models. Built on top of the
LibriSpeech corpus, Libri-Adapt contains English speech recorded on mobile and
embedded-scale microphones, and spans 72 different domains that are
representative of the challenging practical scenarios encountered by ASR
models. More specifically, Libri-Adapt facilitates the study of domain shifts
in ASR models caused by a) different acoustic environments, b) variations in
speaker accents, c) heterogeneity in the hardware and platform software of the
microphones, and d) a combination of the aforementioned three shifts. We also
provide a number of baseline results quantifying the impact of these domain
shifts on the Mozilla DeepSpeech2 ASR model.
- Abstract(参考訳): 本稿では,音声認識モデルにおける教師なし領域適応研究を支援するための新しいデータセットLibri-Adaptを提案する。
LibriSpeechコーパス上に構築されたLibri-Adaptは、モバイルと組み込みのマイクで録音された英語の音声を含み、72の異なるドメインにまたがる。
具体的には、Libri-AdaptはASRモデルにおけるドメインシフトの研究を促進する。
a) 異なる音響環境
b) 話者アクセントの変動
c)マイクロホンのハードウェア及びプラットフォームソフトウェアにおける異質性
d) 上記3つのシフトの組み合わせ
また、これらのドメインシフトがMozilla DeepSpeech2 ASRモデルに与える影響を定量化するベースライン結果も提供します。
関連論文リスト
- Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition [20.476882754923047]
音声視覚音声認識(AVSR)は自動音声認識(ASR)のマルチモーダル拡張である
本稿では,学術論文説明ビデオを用いたAVSRデータセットであるSlideAVSRを構築する。
論文 参考訳(メタデータ) (2024-01-18T07:19:10Z) - Miipher: A Robust Speech Restoration Model Integrating Self-Supervised
Speech and Text Representations [51.89856133895233]
音声復元(SR)は、劣化した音声信号を高品質なものに変換するタスクである。
本研究では、Miipherと呼ばれるロバストなSRモデルを提案し、新しいSRアプリケーションにMiipherを適用する。
SRモデルを様々な劣化に対して堅牢にするために、入力特徴としてw2v-BERTから抽出した音声表現と、PnG-BERTを介して書き起こしから抽出したテキスト表現を言語条件付けとして使用する。
論文 参考訳(メタデータ) (2023-03-03T01:57:16Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Cross-domain Voice Activity Detection with Self-Supervised
Representations [9.02236667251654]
音声活動検出(Voice Activity Detection, VAD)は、音声信号の音声区間を検出することを目的とする。
現在の最先端の手法は、音響に直接含まれている特徴を活用するニューラルネットワークのトレーニングに重点を置いている。
自己監視学習(SSL)に基づく表現は,異なる領域に適応可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T14:53:44Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - An Adaptive Learning based Generative Adversarial Network for One-To-One
Voice Conversion [9.703390665821463]
本稿では,効率の良い1対1話者VCのための適応学習型GANモデルであるALGAN-VCを提案する。
このモデルは、Voice Conversion Challenge (VCC) 2016、2018、2020データセット、および自己準備のスピーチデータセットでテストされています。
生成音声サンプルの主観的および客観的評価は,提案モデルが音声変換タスクをエレガントに実行していることを示した。
論文 参考訳(メタデータ) (2021-04-25T13:44:32Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。