論文の概要: Quantifying Language Variation Acoustically with Few Resources
- arxiv url: http://arxiv.org/abs/2205.02694v1
- Date: Thu, 5 May 2022 15:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 20:09:58.360683
- Title: Quantifying Language Variation Acoustically with Few Resources
- Title(参考訳): 資源が少ない言語変化の音響的定量化
- Authors: Martijn Bartelds and Martijn Wieling
- Abstract要約: ディープ・アコースティック・モデルは低リソース言語に転送する言語情報を学んだかもしれない。
4つの言語(地域)から100以上の方言に対して平均10語以上の発音差を計算する。
その結果,音響モデルは音素の書き起こしを必要とせずに(従来の)書き起こし方式よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 4.162663632560141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep acoustic models represent linguistic information based on massive
amounts of data. Unfortunately, for regional languages and dialects such
resources are mostly not available. However, deep acoustic models might have
learned linguistic information that transfers to low-resource languages. In
this study, we evaluate whether this is the case through the task of
distinguishing low-resource (Dutch) regional varieties. By extracting
embeddings from the hidden layers of various wav2vec 2.0 models (including new
models which are pre-trained and/or fine-tuned on Dutch) and using dynamic time
warping, we compute pairwise pronunciation differences averaged over 10 words
for over 100 individual dialects from four (regional) languages. We then
cluster the resulting difference matrix in four groups and compare these to a
gold standard, and a partitioning on the basis of comparing phonetic
transcriptions. Our results show that acoustic models outperform the
(traditional) transcription-based approach without requiring phonetic
transcriptions, with the best performance achieved by the multilingual XLSR-53
model fine-tuned on Dutch. On the basis of only six seconds of speech, the
resulting clustering closely matches the gold standard.
- Abstract(参考訳): 深層音響モデルは大量のデータに基づく言語情報を表す。
残念ながら、地域言語や方言では、そのような資源はほとんど利用できない。
しかし、深層音響モデルは低リソース言語に転送する言語情報を学んだかもしれない。
本研究では,低資源(オランダ)地域品種を識別する作業を通じて,この状況が評価されている。
様々なwav2vec 2.0モデルの隠れた層(オランダ語で事前学習および/または微調整された新しいモデルを含む)から埋め込みを抽出し、動的時間ワーピングを用いて4つの(地域)言語から100以上の方言に対して平均10語以上の発音差を計算する。
次に、得られた差分行列を4つのグループにクラスタリングし、これらをゴールド標準と比較し、音素転写の比較に基づいて分割する。
この結果から,オランダ語を微調整した多言語XLSR-53モデルにおいて,音素の書き起こしを必要とせず,(従来の)書き起こし方式よりも優れた音響モデルが得られた。
たった6秒の音声に基づいて、結果として得られるクラスタリングはゴールド標準と密接に一致する。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Modeling Orthographic Variation in Occitan's Dialects [3.038642416291856]
大規模多言語モデルは、前処理時のスペル正規化の必要性を最小限に抑える。
以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T07:33:51Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Non-Linear Pairwise Language Mappings for Low-Resource Multilingual
Acoustic Model Fusion [26.728287476234538]
ハイブリッドDNN-HMM音響モデル融合は低リソース言語のための多言語構成で提案される。
異なる単言語音響モデルから対象言語音声信号に対する後部分布を融合する。
ソースターゲット言語ペア毎に別々の回帰ニューラルネットワークをトレーニングし、ソースアコースティックモデルからターゲット言語へ後部を変換する。
論文 参考訳(メタデータ) (2022-07-07T15:56:50Z) - Investigating the Impact of Cross-lingual Acoustic-Phonetic Similarities
on Multilingual Speech Recognition [31.575930914290762]
言語間音響-音声の類似性を調べるために, 新たなデータ駆動手法を提案する。
ディープニューラルネットワークは、異なる音響モデルからの分布を直接的に同等の形式に変換するためのマッピングネットワークとして訓練されている。
モノリンガルに比べて8%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2022-07-07T15:55:41Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Applying Wav2vec2.0 to Speech Recognition in Various Low-resource
Languages [16.001329145018687]
音声領域では、wav2vec2.0は、その強力な表現能力とLibrispeechコーパス上で超低リソース音声認識の実現性を示す。
しかし、wav2vec2.0は英語以外の実際の話シナリオや言語については検討されていない。
様々な言語の低リソース音声認識タスクを解決するために、事前学習モデルを適用します。
論文 参考訳(メタデータ) (2020-12-22T15:59:44Z) - One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech [3.42658286826597]
本稿では,文脈パラメータ生成のメタラーニング概念を用いた多言語音声合成手法を提案する。
本モデルでは,言語間で効率的に情報を共有できることが示され,主観的評価テストにより,ベースラインよりも自然な,正確なコードスイッチング音声を生成する。
論文 参考訳(メタデータ) (2020-08-03T10:43:30Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。