論文の概要: Investigating the Impact of Cross-lingual Acoustic-Phonetic Similarities
on Multilingual Speech Recognition
- arxiv url: http://arxiv.org/abs/2207.03390v1
- Date: Thu, 7 Jul 2022 15:55:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 18:32:18.642450
- Title: Investigating the Impact of Cross-lingual Acoustic-Phonetic Similarities
on Multilingual Speech Recognition
- Title(参考訳): 言語間音響・音声の類似性が多言語音声認識に与える影響の検討
- Authors: Muhammad Umar Farooq, Thomas Hain
- Abstract要約: 言語間音響-音声の類似性を調べるために, 新たなデータ駆動手法を提案する。
ディープニューラルネットワークは、異なる音響モデルからの分布を直接的に同等の形式に変換するためのマッピングネットワークとして訓練されている。
モノリンガルに比べて8%の相対的な改善が達成されている。
- 参考スコア(独自算出の注目度): 31.575930914290762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual automatic speech recognition (ASR) systems mostly benefit low
resource languages but suffer degradation in performance across several
languages relative to their monolingual counterparts. Limited studies have
focused on understanding the languages behaviour in the multilingual speech
recognition setups. In this paper, a novel data-driven approach is proposed to
investigate the cross-lingual acoustic-phonetic similarities. This technique
measures the similarities between posterior distributions from various
monolingual acoustic models against a target speech signal. Deep neural
networks are trained as mapping networks to transform the distributions from
different acoustic models into a directly comparable form. The analysis
observes that the languages closeness can not be truly estimated by the volume
of overlapping phonemes set. Entropy analysis of the proposed mapping networks
exhibits that a language with lesser overlap can be more amenable to
cross-lingual transfer, and hence more beneficial in the multilingual setup.
Finally, the proposed posterior transformation approach is leveraged to fuse
monolingual models for a target language. A relative improvement of ~8% over
monolingual counterpart is achieved.
- Abstract(参考訳): 多言語自動音声認識(ASR)システムは主に低リソース言語に恩恵を与えるが、モノリンガル言語と比較して複数の言語のパフォーマンスが低下する。
限定的な研究は、多言語音声認識設定における言語行動の理解に焦点を当てている。
本稿では,言語間音響・音声の類似性を検討するために,新しいデータ駆動手法を提案する。
本手法は,ターゲット音声信号に対する各種単言語音響モデルの後方分布の類似性を測定する。
ディープニューラルネットワークは、異なる音響モデルからの分布を直接的に同等の形式に変換するためのマッピングネットワークとして訓練されている。
分析は、重なり合う音素集合の体積から言語間の近さを真に推定することはできないことを観察する。
提案したマッピングネットワークのエントロピー解析により,重なりが小さい言語の方が言語間移動に適しており,多言語設定においてより有益であることが示された。
最後に、提案する後進変換アプローチを利用して、ターゲット言語に単言語モデルを融合する。
対訳 対訳 対訳 8% の相対的改善が達成される。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Non-Linear Pairwise Language Mappings for Low-Resource Multilingual
Acoustic Model Fusion [26.728287476234538]
ハイブリッドDNN-HMM音響モデル融合は低リソース言語のための多言語構成で提案される。
異なる単言語音響モデルから対象言語音声信号に対する後部分布を融合する。
ソースターゲット言語ペア毎に別々の回帰ニューラルネットワークをトレーニングし、ソースアコースティックモデルからターゲット言語へ後部を変換する。
論文 参考訳(メタデータ) (2022-07-07T15:56:50Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。