論文の概要: Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition
- arxiv url: http://arxiv.org/abs/2201.11207v1
- Date: Wed, 26 Jan 2022 22:12:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 14:56:57.585595
- Title: Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition
- Title(参考訳): 言語間自動音声認識による音声辞書の探索
- Authors: Piotr \.Zelasko, Siyuan Feng, Laureano Moro Velazquez, Ali Abavisani,
Saurabhchand Bhati, Odette Scharenborg, Mark Hasegawa-Johnson, Najim Dehak
- Abstract要約: 本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
- 参考スコア(独自算出の注目度): 71.49308685090324
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The high cost of data acquisition makes Automatic Speech Recognition (ASR)
model training problematic for most existing languages, including languages
that do not even have a written script, or for which the phone inventories
remain unknown. Past works explored multilingual training, transfer learning,
as well as zero-shot learning in order to build ASR systems for these
low-resource languages. While it has been shown that the pooling of resources
from multiple languages is helpful, we have not yet seen a successful
application of an ASR model to a language unseen during training. A crucial
step in the adaptation of ASR from seen to unseen languages is the creation of
the phone inventory of the unseen language. The ultimate goal of our work is to
build the phone inventory of a language unseen during training in an
unsupervised way without any knowledge about the language. In this paper, we 1)
investigate the influence of different factors (i.e., model architecture,
phonotactic model, type of speech representation) on phone recognition in an
unknown language; 2) provide an analysis of which phones transfer well across
languages and which do not in order to understand the limitations of and areas
for further improvement for automatic phone inventory creation; and 3) present
different methods to build a phone inventory of an unseen language in an
unsupervised way. To that end, we conducted mono-, multi-, and crosslingual
experiments on a set of 13 phonetically diverse languages and several in-depth
analyses. We found a number of universal phone tokens (IPA symbols) that are
well-recognized cross-linguistically. Through a detailed analysis of results,
we conclude that unique sounds, similar sounds, and tone languages remain a
major challenge for phonetic inventory discovery.
- Abstract(参考訳): データ取得のコストが高いため、自動音声認識(asr)モデルのトレーニングは、文字が書かれていない言語や電話の在庫が不明な言語を含む、ほとんどの既存の言語で問題となる。
過去の研究は、これらの低リソース言語のためのasrシステムを構築するために、多言語学習、転送学習、ゼロショット学習を探求した。
複数の言語からのリソースプールが有用であることが示されているが、トレーニング中に見つからない言語へのASRモデルの適用は、まだ成功していない。
ASRの未確認言語への適応における重要なステップは、未確認言語の電話在庫の作成である。
私たちの研究の最終的な目標は、トレーニング中に目に見えない言語の電話在庫を教師なしの方法で構築することにあります。
本稿では,
1) 未知言語における電話の認識に及ぼす異なる要因(モデルアーキテクチャ、フォノタクティクスモデル、音声表現の種類など)の影響について検討する。
2)電話機が言語をまたいでうまく転送されるか、また、電話の自動在庫作成のさらなる改善のための限界や領域を理解しない分析を提供する。
3) 教師なしの方法で未認識言語の電話インベントリを構築するための異なる方法を示す。
そこで本研究では,13言語を対象に単言語,多言語,多言語,多言語間の実験を行った。
クロス言語的によく認識される、多くのユニバーサル電話トークン(ipaシンボル)を見つけました。
結果の詳細な分析を通じて,固有音,類似音,トーン言語は音素インベントリの発見において依然として大きな課題となっていると結論づけた。
関連論文リスト
- Automatic Spoken Language Identification using a Time-Delay Neural
Network [0.0]
アラビア語、スペイン語、フランス語、トルコ語を区別するために言語識別システムが作られた。
既存の多言語データセットを使用して、一連の音響モデルのトレーニングを行った。
このシステムは、カスタム多言語言語モデルと特殊発音辞書を備えていた。
論文 参考訳(メタデータ) (2022-05-19T13:47:48Z) - A Survey of Multilingual Models for Automatic Speech Recognition [6.657361001202456]
言語間移動は多言語自動音声認識の課題に対する魅力的な解法である。
自己監督学習の最近の進歩は、多言語ASRモデルで使用されるラベルなし音声データへの道を開いた。
多様な言語や技術の研究から多言語モデルを構築するためのベストプラクティスを提示する。
論文 参考訳(メタデータ) (2022-02-25T09:31:40Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。