論文の概要: Differentiable Allophone Graphs for Language-Universal Speech
Recognition
- arxiv url: http://arxiv.org/abs/2107.11628v1
- Date: Sat, 24 Jul 2021 15:09:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 15:54:36.895604
- Title: Differentiable Allophone Graphs for Language-Universal Speech
Recognition
- Title(参考訳): 言語ユニバーサル音声認識のための微分可能な音声グラフ
- Authors: Brian Yan, Siddharth Dalmia, David R. Mortensen, Florian Metze, Shinji
Watanabe
- Abstract要約: 言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
- 参考スコア(独自算出の注目度): 77.2981317283029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building language-universal speech recognition systems entails producing
phonological units of spoken sound that can be shared across languages. While
speech annotations at the language-specific phoneme or surface levels are
readily available, annotations at a universal phone level are relatively rare
and difficult to produce. In this work, we present a general framework to
derive phone-level supervision from only phonemic transcriptions and
phone-to-phoneme mappings with learnable weights represented using weighted
finite-state transducers, which we call differentiable allophone graphs. By
training multilingually, we build a universal phone-based speech recognition
model with interpretable probabilistic phone-to-phoneme mappings for each
language. These phone-based systems with learned allophone graphs can be used
by linguists to document new languages, build phone-based lexicons that capture
rich pronunciation variations, and re-evaluate the allophone mappings of seen
language. We demonstrate the aforementioned benefits of our proposed framework
with a system trained on 7 diverse languages.
- Abstract(参考訳): 言語共通音声認識システムの構築には、言語間で共有可能な音声の音韻単位の生成が伴う。
言語固有の音素や表面レベルの音声アノテーションは容易に利用できるが、普遍的な電話レベルの音声アノテーションは、比較的稀で作成が困難である。
本稿では,重み付き有限状態トランスデューサを用いて学習可能な重みを表現した音素書き起こしと音素間マッピングのみから,電話レベルの監督を導出するための一般的な枠組みを提案する。
多言語学習により,各言語に対する確率的音声対音素マッピングを用いた汎用音声認識モデルを構築した。
学習されたアロフォーングラフを持つこれらの電話ベースのシステムは、言語学者によって新しい言語を文書化し、豊かな発音のバリエーションをキャプチャする電話ベースのレキシコンを構築し、見た言語のアロフォーンマッピングを再評価するために使用することができる。
提案するフレームワークの利点を、7つの多様な言語で学習したシステムで実証する。
関連論文リスト
- Multilingual and crosslingual speech recognition using
phonological-vector based phone embeddings [20.93287944284448]
そこで本稿では,音韻処理による音声の埋め込み(トップダウン)とディープニューラルネットワーク(DNN)に基づく音響特徴抽出(ボットアップ)を併用して,音声の確率を計算することを提案する。
音声認識には音響から音韻的特徴への逆変換は不要である。
CommonVoiceデータセット(ドイツ語、フランス語、スペイン語、イタリア語)とAISHLL-1データセット(マンダリン)で実験が行われた。
論文 参考訳(メタデータ) (2021-07-11T12:56:47Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - AlloVera: A Multilingual Allophone Database [137.3686036294502]
AlloVeraは、218のアロフォンから14言語のための音素へのマッピングを提供する。
我々は、AlloVeraで構築された「ユニバーサル」アロフォンモデルであるAllosaurusが、音声書き起こしタスクにおいて「ユニバーサル」音声モデルと言語特化モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-04-17T02:02:18Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。