論文の概要: Universal Phone Recognition with a Multilingual Allophone System
- arxiv url: http://arxiv.org/abs/2002.11800v1
- Date: Wed, 26 Feb 2020 21:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 15:37:40.390843
- Title: Universal Phone Recognition with a Multilingual Allophone System
- Title(参考訳): 多言語アロフォンシステムを用いたユニバーサル音声認識
- Authors: Xinjian Li, Siddharth Dalmia, Juncheng Li, Matthew Lee, Patrick
Littell, Jiali Yao, Antonios Anastasopoulos, David R. Mortensen, Graham
Neubig, Alan W Black, Florian Metze
- Abstract要約: 言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
- 参考スコア(独自算出の注目度): 135.2254086165086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual models can improve language processing, particularly for low
resource situations, by sharing parameters across languages. Multilingual
acoustic models, however, generally ignore the difference between phonemes
(sounds that can support lexical contrasts in a particular language) and their
corresponding phones (the sounds that are actually spoken, which are language
independent). This can lead to performance degradation when combining a variety
of training languages, as identically annotated phonemes can actually
correspond to several different underlying phonetic realizations. In this work,
we propose a joint model of both language-independent phone and
language-dependent phoneme distributions. In multilingual ASR experiments over
11 languages, we find that this model improves testing performance by 2%
phoneme error rate absolute in low-resource conditions. Additionally, because
we are explicitly modeling language-independent phones, we can build a
(nearly-)universal phone recognizer that, when combined with the PHOIBLE large,
manually curated database of phone inventories, can be customized into 2,000
language dependent recognizers. Experiments on two low-resourced indigenous
languages, Inuktitut and Tusom, show that our recognizer achieves phone
accuracy improvements of more than 17%, moving a step closer to speech
recognition for all languages in the world.
- Abstract(参考訳): マルチ言語モデルは、言語間でパラメータを共有することで、特に低リソースの状況において、言語処理を改善することができる。
しかし、多言語音響モデルは一般に、音素(特定の言語で語彙のコントラストをサポートする音)と対応する電話機(実際に話される音、言語に依存しない)の違いを無視している。
これは、様々な訓練言語を組み合わせる際に性能劣化を引き起こす可能性があるが、同じ注釈付き音素は、実際にいくつかの基礎となる音素的実現に対応することができる。
本研究では,言語に依存しない音素分布と言語に依存しない音素分布の結合モデルを提案する。
11言語にわたる多言語ASR実験において、このモデルは低リソース条件下で2%の音素誤り率でテスト性能を向上させる。
さらに、言語に依存しない電話機を明示的にモデル化しているため、PHOIBLEの大規模かつ手作業による携帯電話在庫のデータベースと組み合わせることで、2000言語依存の認識器にカスタマイズすることができる。
inuktitut と tusom の2つの低言語による実験では、認識器は電話の精度を17%以上向上させ、世界中の全ての言語で音声認識に一歩近づいた。
関連論文リスト
- Allophant: Cross-lingual Phoneme Recognition with Articulatory
Attributes [0.0]
アロファントは多言語音素認識器である。
ターゲット言語への言語間移動には音素の在庫しか必要としない。
AllophoibleはPHOIBLEデータベースの拡張である。
論文 参考訳(メタデータ) (2023-06-07T10:11:09Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。