論文の概要: AlloVera: A Multilingual Allophone Database
- arxiv url: http://arxiv.org/abs/2004.08031v1
- Date: Fri, 17 Apr 2020 02:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 13:06:24.496230
- Title: AlloVera: A Multilingual Allophone Database
- Title(参考訳): AlloVera: マルチリンガルな音声データベース
- Authors: David R. Mortensen, Xinjian Li, Patrick Littell, Alexis Michaud,
Shruti Rijhwani, Antonios Anastasopoulos, Alan W. Black, Florian Metze,
Graham Neubig
- Abstract要約: AlloVeraは、218のアロフォンから14言語のための音素へのマッピングを提供する。
我々は、AlloVeraで構築された「ユニバーサル」アロフォンモデルであるAllosaurusが、音声書き起こしタスクにおいて「ユニバーサル」音声モデルと言語特化モデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 137.3686036294502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new resource, AlloVera, which provides mappings from 218
allophones to phonemes for 14 languages. Phonemes are contrastive phonological
units, and allophones are their various concrete realizations, which are
predictable from phonological context. While phonemic representations are
language specific, phonetic representations (stated in terms of (allo)phones)
are much closer to a universal (language-independent) transcription. AlloVera
allows the training of speech recognition models that output phonetic
transcriptions in the International Phonetic Alphabet (IPA), regardless of the
input language. We show that a "universal" allophone model, Allosaurus, built
with AlloVera, outperforms "universal" phonemic models and language-specific
models on a speech-transcription task. We explore the implications of this
technology (and related technologies) for the documentation of endangered and
minority languages. We further explore other applications for which AlloVera
will be suitable as it grows, including phonological typology.
- Abstract(参考訳): 218のアロフォンから14言語のための音素へのマッピングを提供するAlloVeraという新しいリソースを導入する。
音素は対照的な音韻単位であり、アロフォンは音韻学的文脈から予測可能な様々な具体的実現である。
音素表現は言語固有のものであるが、音素表現(allo)は普遍的な(言語に依存しない)転写に近い。
AlloVeraは、入力言語に関係なく、国際音声アルファベット(IPA)で音声の書き起こしを出力する音声認識モデルのトレーニングを可能にする。
allovera を組み込んだ "universal" allophone モデルである allosaurus が,音声認識タスクにおいて "universal" 音素モデルおよび言語固有モデルよりも優れていることを示す。
我々は、この技術(および関連する技術)が、絶滅危惧言語および少数言語のドキュメントに与える影響を探求する。
さらに、音韻学の類型学など、AlloVeraが成長するのに適した他のアプリケーションについても検討する。
関連論文リスト
- Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - Multilingual and crosslingual speech recognition using
phonological-vector based phone embeddings [20.93287944284448]
そこで本稿では,音韻処理による音声の埋め込み(トップダウン)とディープニューラルネットワーク(DNN)に基づく音響特徴抽出(ボットアップ)を併用して,音声の確率を計算することを提案する。
音声認識には音響から音韻的特徴への逆変換は不要である。
CommonVoiceデータセット(ドイツ語、フランス語、スペイン語、イタリア語)とAISHLL-1データセット(マンダリン)で実験が行われた。
論文 参考訳(メタデータ) (2021-07-11T12:56:47Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Tusom2021: A Phonetically Transcribed Speech Dataset from an Endangered
Language for Universal Phone Recognition Experiments [7.286387368812729]
本稿では,絶滅危惧国タングク語東トゥーソム語で2255発の発声を公に書き起こしたコーパスを提示する。
データセットは音素ではなく電話の点で転写されるため、多くの大きなデータセットよりも普遍的な電話認識システムに適しています。
論文 参考訳(メタデータ) (2021-04-02T00:26:10Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。