論文の概要: Allophant: Cross-lingual Phoneme Recognition with Articulatory
Attributes
- arxiv url: http://arxiv.org/abs/2306.04306v2
- Date: Wed, 16 Aug 2023 17:44:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 16:40:41.094236
- Title: Allophant: Cross-lingual Phoneme Recognition with Articulatory
Attributes
- Title(参考訳): アロファント:調音属性を用いた言語間音素認識
- Authors: Kevin Glocker (1), Aaricia Herygers (1), Munir Georges (1 and 2) ((1)
AImotion Bavaria Technische Hochschule Ingolstadt, (2) Intel Labs Germany)
- Abstract要約: アロファントは多言語音素認識器である。
ターゲット言語への言語間移動には音素の在庫しか必要としない。
AllophoibleはPHOIBLEデータベースの拡張である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes Allophant, a multilingual phoneme recognizer. It requires
only a phoneme inventory for cross-lingual transfer to a target language,
allowing for low-resource recognition. The architecture combines a
compositional phone embedding approach with individually supervised phonetic
attribute classifiers in a multi-task architecture. We also introduce
Allophoible, an extension of the PHOIBLE database. When combined with a
distance based mapping approach for grapheme-to-phoneme outputs, it allows us
to train on PHOIBLE inventories directly. By training and evaluating on 34
languages, we found that the addition of multi-task learning improves the
model's capability of being applied to unseen phonemes and phoneme inventories.
On supervised languages we achieve phoneme error rate improvements of 11
percentage points (pp.) compared to a baseline without multi-task learning.
Evaluation of zero-shot transfer on 84 languages yielded a decrease in PER of
2.63 pp. over the baseline.
- Abstract(参考訳): 本稿では,多言語音素認識器であるallophantを提案する。
ターゲット言語への言語間転送には音素の在庫しか必要とせず、低リソースの認識を可能にする。
このアーキテクチャは、構成的な電話埋め込みアプローチと、マルチタスクアーキテクチャにおける個別に教師付き音声属性分類器を組み合わせる。
また,phoible データベースの拡張である allophoible についても紹介する。
グラフ-音素間出力の距離ベースマッピング手法と組み合わせることで、PHOIBLEの在庫を直接訓練することができる。
34言語を学習・評価することで,マルチタスク学習の追加により,未知の音素や音素の在庫に適用する能力が改善されることがわかった。
教師付き言語では,マルチタスク学習のないベースラインと比較して,音素誤り率の改善が11ポイント (pp.) である。
84言語におけるゼロショット転送の評価によりperは2.63pp。
ベースラインを越えて
関連論文リスト
- Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。