論文の概要: MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech
Recognition
- arxiv url: http://arxiv.org/abs/2302.13750v1
- Date: Mon, 27 Feb 2023 13:26:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 15:37:31.184184
- Title: MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech
Recognition
- Title(参考訳): MoLE : 多言語自動音声認識のための言語エキスパートの混合
- Authors: Yoohwan Kwon and Soo-Whan Chung
- Abstract要約: 我々はMixture-of-Language-Expert(MoLE)という多言語音声認識ネットワークを提案する。
MoLEは、任意の言語で入力された音声から言語表現を分析し、軽量な言語トークン化器で言語固有の専門家を活性化する。
信頼性に基づいて、アクティベートされた専門家と言語に依存しない専門家を集約し、言語条件の埋め込みを表現する。
- 参考スコア(独自算出の注目度): 12.23416994447554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-lingual speech recognition aims to distinguish linguistic expressions
in different languages and integrate acoustic processing simultaneously. In
contrast, current multi-lingual speech recognition research follows a
language-aware paradigm, mainly targeted to improve recognition performance
rather than discriminate language characteristics. In this paper, we present a
multi-lingual speech recognition network named
Mixture-of-Language-Expert(MoLE), which digests speech in a variety of
languages. Specifically, MoLE analyzes linguistic expression from input speech
in arbitrary languages, activating a language-specific expert with a
lightweight language tokenizer. The tokenizer not only activates experts, but
also estimates the reliability of the activation. Based on the reliability, the
activated expert and the language-agnostic expert are aggregated to represent
language-conditioned embedding for efficient speech recognition. Our proposed
model is evaluated in 5 languages scenario, and the experimental results show
that our structure is advantageous on multi-lingual recognition, especially for
speech in low-resource language.
- Abstract(参考訳): 多言語音声認識は、異なる言語の言語表現を識別し、同時に音響処理を統合することを目的としている。
対照的に、現在の多言語音声認識研究は、言語特性を識別するよりも、主に認識性能を向上させることを目的とした言語認識パラダイムに従っている。
本稿では,様々な言語で音声を消化するMixture-of-Language-Expert(MoLE)という多言語音声認識ネットワークを提案する。
特に、moleは任意の言語における入力音声から言語表現を分析し、軽量言語トークン化器で言語固有の専門家を活性化する。
トークン化器は専門家を活性化するだけでなく、アクティベーションの信頼性を推定する。
信頼度に基づいて、活性化されたエキスパートと言語非依存の専門家を集約して、効率的な音声認識のための言語条件付き埋め込みを表現する。
提案手法は5言語シナリオで評価され,実験結果から,多言語認識,特に低音源言語における音声認識に有利であることが示唆された。
関連論文リスト
- Fine-Tuned Self-Supervised Speech Representations for Language
Diarization in Multilingual Code-Switched Speech [4.39549503760707]
大規模自己教師型アーキテクチャ(WavLM)から抽出した微調整音声表現を用いた連続多言語ダイアリザを開発した。
南アフリカ語5言語(isiZulu, isiXa, Seswana, Sesotho, English)からなるコード交換コーパスを実験した。
論文 参考訳(メタデータ) (2023-12-15T09:40:41Z) - Multilingual Multi-Figurative Language Detection [14.799109368073548]
比喩的言語理解は多言語環境では 非常に過小評価されています
我々は,多言語多言語言語モデリングを導入し,文レベル図形言語検出のためのベンチマークを提供する。
テンプレートに基づく即時学習に基づく図形言語検出のためのフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-31T18:52:41Z) - Multilingual Speech Emotion Recognition With Multi-Gating Mechanism and
Neural Architecture Search [15.51730246937201]
SERは、音声をHappy、Angry、Fear、Disgust、Neutralなどの感情カテゴリーに分類する。
本稿では,複数の事前学習された音声モデルから感情情報を抽出する言語特化モデルを提案する。
我々のモデルは、ドイツ語では3%、フランス語では14.3%の精度で最先端の精度を上げる。
論文 参考訳(メタデータ) (2022-10-31T19:55:33Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Automatic Spoken Language Identification using a Time-Delay Neural
Network [0.0]
アラビア語、スペイン語、フランス語、トルコ語を区別するために言語識別システムが作られた。
既存の多言語データセットを使用して、一連の音響モデルのトレーニングを行った。
このシステムは、カスタム多言語言語モデルと特殊発音辞書を備えていた。
論文 参考訳(メタデータ) (2022-05-19T13:47:48Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。