論文の概要: That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages
- arxiv url: http://arxiv.org/abs/2005.08118v1
- Date: Sat, 16 May 2020 22:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 13:52:26.776692
- Title: That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages
- Title(参考訳): 聞き覚えのある聞こえる:言語間での音声表現の伝達の分析
- Authors: Piotr \.Zelasko, Laureano Moro-Vel\'azquez, Mark Hasegawa-Johnson,
Odette Scharenborg, Najim Dehak
- Abstract要約: 我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
- 参考スコア(独自算出の注目度): 72.9927937955371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Only a handful of the world's languages are abundant with the resources that
enable practical applications of speech processing technologies. One of the
methods to overcome this problem is to use the resources existing in other
languages to train a multilingual automatic speech recognition (ASR) model,
which, intuitively, should learn some universal phonetic representations. In
this work, we focus on gaining a deeper understanding of how general these
representations might be, and how individual phones are getting improved in a
multilingual setting. To that end, we select a phonetically diverse set of
languages, and perform a series of monolingual, multilingual and crosslingual
(zero-shot) experiments. The ASR is trained to recognize the International
Phonetic Alphabet (IPA) token sequences. We observe significant improvements
across all languages in the multilingual setting, and stark degradation in the
crosslingual setting, where the model, among other errors, considers Javanese
as a tone language. Notably, as little as 10 hours of the target language
training data tremendously reduces ASR error rates. Our analysis uncovered that
even the phones that are unique to a single language can benefit greatly from
adding training data from other languages - an encouraging result for the
low-resource speech community.
- Abstract(参考訳): 世界の少数の言語だけが、音声処理技術の実用的な応用を可能にするリソースに富んでいる。
この問題を解決する方法の1つは、他の言語に存在するリソースを使用して多言語自動音声認識(asr)モデルを訓練することである。
本研究では,これらの表現がいかに汎用的であるか,また,複数の言語で個別の電話機がどのように改善されているのかを,より深く理解することに焦点を当てる。
そのために,音声に多様な言語群を選択し,単言語,多言語,多言語間(ゼロショット)の実験を行う。
ASRは国際音声Alphabet(IPA)トークンシーケンスを認識するために訓練されている。
我々は、多言語設定における全ての言語間での大幅な改善と、モデルが他のエラーと同様に、Javaneseをトーン言語とみなす言語横断設定におけるスターク劣化を観察する。
特に、ターゲット言語トレーニングデータの10時間以内は、ASRエラー率を大幅に削減します。
分析の結果、単一の言語に固有の携帯電話であっても、他の言語からのトレーニングデータを追加することで大きなメリットがあります。
関連論文リスト
- Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Language-universal phonetic encoder for low-resource speech recognition [28.21805271848413]
我々は、低リソースのASR性能を改善するために、International Phonetic Alphabet (IPA) ベースの言語ユニバーサル音声モデルを活用する。
我々のアプローチと適応は、ドメインや言語ミスマッチしたシナリオであっても、極端に低リソースな言語に有効です。
論文 参考訳(メタデータ) (2023-05-19T10:24:30Z) - Bitext Mining Using Distilled Sentence Representations for Low-Resource
Languages [12.00637655338665]
私たちは、非常に低リソースの言語を研究し、50のアフリカ言語を扱っています。
我々は文エンコーダ、マイニングビットクストを訓練し、NMTシステムのトレーニングによりビットクストを検証する。
これらの言語では、文エンコーダ、ビットクストをマイニングし、NMTシステムのトレーニングによってビットクストを検証する。
論文 参考訳(メタデータ) (2022-05-25T10:53:24Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - Improved acoustic word embeddings for zero-resource languages using
multilingual transfer [37.78342106714364]
我々は、ラベル付きデータに対する複数の良質な言語からの単一の教師付き埋め込みモデルを訓練し、それを目に見えないゼロ・リソース言語に適用する。
本稿では,3つのマルチリンガルリカレントニューラルネットワーク(RNN)モデルについて考察する。全ての訓練言語の連接語彙に基づいて訓練された分類器,複数言語から同一語と異なる単語を識別する訓練されたシームズRNN,単語ペアを再構成する訓練された対応オートエンコーダ(CAE)RNNである。
これらのモデルは、ゼロリソース言語自体で訓練された最先端の教師なしモデルよりも優れており、平均精度が30%以上向上している。
論文 参考訳(メタデータ) (2020-06-02T12:28:34Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。