論文の概要: Multilingual and crosslingual speech recognition using
phonological-vector based phone embeddings
- arxiv url: http://arxiv.org/abs/2107.05038v1
- Date: Sun, 11 Jul 2021 12:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 15:49:20.747993
- Title: Multilingual and crosslingual speech recognition using
phonological-vector based phone embeddings
- Title(参考訳): 音韻ベクトルに基づく音声埋め込みを用いた多言語・多言語音声認識
- Authors: Chengrui Zhu, Keyu An, Huahuan Zheng, Zhijian Ou
- Abstract要約: そこで本稿では,音韻処理による音声の埋め込み(トップダウン)とディープニューラルネットワーク(DNN)に基づく音響特徴抽出(ボットアップ)を併用して,音声の確率を計算することを提案する。
音声認識には音響から音韻的特徴への逆変換は不要である。
CommonVoiceデータセット(ドイツ語、フランス語、スペイン語、イタリア語)とAISHLL-1データセット(マンダリン)で実験が行われた。
- 参考スコア(独自算出の注目度): 20.93287944284448
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The use of phonological features (PFs) potentially allows language-specific
phones to remain linked in training, which is highly desirable for information
sharing for multilingual and crosslingual speech recognition methods for
low-resourced languages. A drawback suffered by previous methods in using
phonological features is that the acoustic-to-PF extraction in a bottom-up way
is itself difficult. In this paper, we propose to join phonology driven phone
embedding (top-down) and deep neural network (DNN) based acoustic feature
extraction (bottom-up) to calculate phone probabilities. The new method is
called JoinAP (Joining of Acoustics and Phonology). Remarkably, no inversion
from acoustics to phonological features is required for speech recognition. For
each phone in the IPA (International Phonetic Alphabet) table, we encode its
phonological features to a phonological-vector, and then apply linear or
nonlinear transformation of the phonological-vector to obtain the phone
embedding. A series of multilingual and crosslingual (both zero-shot and
few-shot) speech recognition experiments are conducted on the CommonVoice
dataset (German, French, Spanish and Italian) and the AISHLL-1 dataset
(Mandarin), and demonstrate the superiority of JoinAP with nonlinear phone
embeddings over both JoinAP with linear phone embeddings and the traditional
method with flat phone embeddings.
- Abstract(参考訳): 音声特徴量(pfs)の使用は、訓練中に言語固有の電話機を接続できる可能性があり、低リソース言語のための多言語および言語間音声認識方法の情報共有に非常に望ましい。
従来の音韻的特徴を用いた場合の欠点は、ボトムアップ方式での音響-PF抽出自体が難しいことである。
本稿では,音韻駆動型電話埋め込み(トップダウン)とディープニューラルネットワーク(dnn)を用いた音響特徴抽出(bottom-up)を併用し,電話の確率を推定する。
新しい手法はJoinAP(Joining of Acoustics and Phonology)と呼ばれる。
音声認識には音響から音韻的特徴への逆変換は不要である。
In the IPA (International Phonetic Alphabet) table, we encode its phonological features to a phonological-vector, then applied linear or linear transformation of the phonological-vector to obtained the phone embedded。
コモンボイスデータセット (ドイツ語, フランス語, スペイン語, イタリア語) と aishll-1 データセット (mandarin) で複数言語間および言語間(ゼロショットと少数ショットの両方)の音声認識実験を行い、joinap の線形電話埋め込みとフラット電話埋め込みによる従来の方法の両方において、非線形電話埋め込みによるjoinapの優位性を実証した。
関連論文リスト
- Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Tusom2021: A Phonetically Transcribed Speech Dataset from an Endangered
Language for Universal Phone Recognition Experiments [7.286387368812729]
本稿では,絶滅危惧国タングク語東トゥーソム語で2255発の発声を公に書き起こしたコーパスを提示する。
データセットは音素ではなく電話の点で転写されるため、多くの大きなデータセットよりも普遍的な電話認識システムに適しています。
論文 参考訳(メタデータ) (2021-04-02T00:26:10Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - AlloVera: A Multilingual Allophone Database [137.3686036294502]
AlloVeraは、218のアロフォンから14言語のための音素へのマッピングを提供する。
我々は、AlloVeraで構築された「ユニバーサル」アロフォンモデルであるAllosaurusが、音声書き起こしタスクにおいて「ユニバーサル」音声モデルと言語特化モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-04-17T02:02:18Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。