論文の概要: Common Phone: A Multilingual Dataset for Robust Acoustic Modelling
- arxiv url: http://arxiv.org/abs/2201.05912v1
- Date: Sat, 15 Jan 2022 19:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 18:59:48.339178
- Title: Common Phone: A Multilingual Dataset for Robust Acoustic Modelling
- Title(参考訳): Common Phone:ロバスト音響モデリングのための多言語データセット
- Authors: Philipp Klumpp and Tom\'as Arias-Vergara and Paula Andrea P\'erez-Toro
and Elmar N\"oth and Juan Rafael Orozco-Arroyave
- Abstract要約: この研究は、MozillaのCommon Voiceプロジェクトを通じて76.000人以上のコントリビュータから記録された、ジェンダーバランスのとれた多言語コーパスであるCommon Phoneを紹介した。
音声の分節が自動生成され、約116時間の音声が濃縮される。
Wav2Vec 2.0音響モデルは、共通電話を用いて、音声記号認識を行い、生成された音素アノテーションの品質を検証するために訓練された。
- 参考スコア(独自算出の注目度): 13.930464898816652
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current state of the art acoustic models can easily comprise more than 100
million parameters. This growing complexity demands larger training datasets to
maintain a decent generalization of the final decision function. An ideal
dataset is not necessarily large in size, but large with respect to the amount
of unique speakers, utilized hardware and varying recording conditions. This
enables a machine learning model to explore as much of the domain-specific
input space as possible during parameter estimation. This work introduces
Common Phone, a gender-balanced, multilingual corpus recorded from more than
76.000 contributors via Mozilla's Common Voice project. It comprises around 116
hours of speech enriched with automatically generated phonetic segmentation. A
Wav2Vec 2.0 acoustic model was trained with the Common Phone to perform
phonetic symbol recognition and validate the quality of the generated phonetic
annotation. The architecture achieved a PER of 18.1 % on the entire test set,
computed with all 101 unique phonetic symbols, showing slight differences
between the individual languages. We conclude that Common Phone provides
sufficient variability and reliable phonetic annotation to help bridging the
gap between research and application of acoustic models.
- Abstract(参考訳): 芸術音響モデルの現状は、1億以上のパラメータを簡単に構成できる。
この増大する複雑性は、最終的な決定関数の適切な一般化を維持するために、より大きなトレーニングデータセットを必要とする。
理想的なデータセットは必ずしも大きなものではなく、ユニークな話者の量、ハードウェアの利用、様々な記録条件に関して大きい。
これにより、機械学習モデルはパラメータ推定中にできるだけ多くのドメイン固有の入力空間を探索できる。
これは、MozillaのCommon Voiceプロジェクトを通じて、76.000人以上のコントリビュータから録音された性別バランスのとれた多言語コーパスである。
約116時間の音声からなり、自動生成音声セグメンテーションが強化される。
Wav2Vec 2.0音響モデルはCommon Phoneで訓練され、音韻認識を行い、生成された音韻アノテーションの品質を検証する。
このアーキテクチャは、テストセット全体のPERが18.1%に達し、101のユニークな音声記号で計算され、個々の言語間でわずかに異なる。
音響モデルの研究と応用のギャップを埋めるために,Common Phoneは十分な可変性と信頼性のある音声アノテーションを提供する。
関連論文リスト
- Generating Data with Text-to-Speech and Large-Language Models for Conversational Speech Recognition [48.527630771422935]
複数話者対話型ASRのための合成データ生成パイプラインを提案する。
我々は、電話と遠隔会話音声設定のためのWhisper ASRモデルを微調整して評価を行う。
論文 参考訳(メタデータ) (2024-08-17T14:47:05Z) - Phonetically rich corpus construction for a low-resourced language [0.0]
本稿では,低音源言語に対する幅広い音声カバレッジを持つテキストコーパスを作成するための新しい手法を提案する。
提案手法は,三声分布に基づく文選択アルゴリズムまでのテキストデータセットの収集を含む。
アルゴリズムを用いて、同様のサイズのサンプルに対して、異なるトリフォンの比率が55.8%向上する。
論文 参考訳(メタデータ) (2024-02-08T16:36:11Z) - Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。