論文の概要: SQuId: Measuring Speech Naturalness in Many Languages
- arxiv url: http://arxiv.org/abs/2210.06324v1
- Date: Wed, 12 Oct 2022 15:43:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 13:16:28.891832
- Title: SQuId: Measuring Speech Naturalness in Many Languages
- Title(参考訳): SQuId: 多くの言語における音声の自然度の測定
- Authors: Thibault Sellam, Ankur Bapna, Joshua Camp, Diana Mackinnon, Ankur P.
Parikh, Jason Riesa
- Abstract要約: SQuIdは、100万以上の評価に基づいて訓練され、65の地域でテストされた多言語自然性予測モデルである。
多くのローカルで1つのモデルをトレーニングすることは、モノローカライズベースラインを一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 20.179329418187354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Much of text-to-speech research relies on human evaluation, which incurs
heavy costs and slows down the development process. The problem is particularly
acute in heavily multilingual applications, where recruiting and polling judges
can take weeks. We introduce SQuId (Speech Quality Identification), a
multilingual naturalness prediction model trained on over a million ratings and
tested in 65 locales-the largest effort of this type to date. The main insight
is that training one model on many locales consistently outperforms mono-locale
baselines. We present our task, the model, and show that it outperforms a
competitive baseline based on w2v-BERT and VoiceMOS by 50.0%. We then
demonstrate the effectiveness of cross-locale transfer during fine-tuning and
highlight its effect on zero-shot locales, i.e., locales for which there is no
fine-tuning data. Through a series of analyses, we highlight the role of
non-linguistic effects such as sound artifacts in cross-locale transfer.
Finally, we present the effect of our design decision, e.g., model size,
pre-training diversity, and language rebalancing with several ablation
experiments.
- Abstract(参考訳): テキストから音声への研究の多くは、人的評価に依存しているため、コストがかかり、開発プロセスが遅くなる。
特に多言語アプリケーションでは、採用とポーリングの審査員が数週間かかることがある。
我々は,100万人以上のレーティングで訓練され,65箇所でテストされた多言語自然性予測モデルであるsquid(speech quality identification)を紹介する。
主な洞察は、多くのローカルでの1つのモデルのトレーニングが、単ローカルベースラインを一貫して上回ることである。
本稿では,W2v-BERTとVoiceMOSに基づく競争ベースラインを50.0%上回る性能を示した。
次に, 微調整時のクロスロケール転送の有効性を実証し, その効果をゼロショットロケール, すなわち微調整データがないロケールに強調する。
クロスローカリー転送における音響アーチファクトなどの非言語的効果の役割を,一連の分析を通じて強調する。
最後に,いくつかのアブレーション実験を用いて,モデルサイズ,事前学習の多様性,言語リバランスなど,設計決定の効果について述べる。
関連論文リスト
- Towards Quantifying and Reducing Language Mismatch Effects in Cross-Lingual Speech Anti-Spoofing [21.214330523348046]
既存のアンチスプーフィングデータセットは主に英語で書かれている。
多言語データセットの取得の高コストは、トレーニング言語に依存しないモデルを妨げる。
我々は、TS(ACCENT)によるアクセントベースのデータ拡張という革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-12T18:18:22Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Zero-shot Cross-lingual Stance Detection via Adversarial Language Adaptation [7.242609314791262]
本稿では,ゼロショット言語間スタンス検出,多言語翻訳拡張BERT (MTAB) に対する新しいアプローチを提案する。
本手法では,ゼロショット性能を向上させるために翻訳拡張を用い,モデルの有効性をさらに向上するために,対角学習と組み合わせる。
提案手法の有効性を実証し,強力なベースラインモデルと改良されたモデルとの比較を行った。
論文 参考訳(メタデータ) (2024-04-22T16:56:43Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。