論文の概要: A Configurable Multilingual Model is All You Need to Recognize All
Languages
- arxiv url: http://arxiv.org/abs/2107.05876v1
- Date: Tue, 13 Jul 2021 06:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 14:35:49.990217
- Title: A Configurable Multilingual Model is All You Need to Recognize All
Languages
- Title(参考訳): 構成可能な多言語モデルは、すべての言語を認識するために必要なすべてである
- Authors: Long Zhou, Jinyu Li, Eric Sun, Shujie Liu
- Abstract要約: 本稿では,1回しか訓練されない新しい多言語モデル(CMM)を提案する。
CMMは、ユーザが1つ、2つ、3つの言語を選択すると、一般的な多言語モデルから26.4%、16.9%、および10.4%の単語誤りを減らす。
- 参考スコア(独自算出の注目度): 52.274446882747455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual automatic speech recognition (ASR) models have shown great
promise in recent years because of the simplified model training and deployment
process. Conventional methods either train a universal multilingual model
without taking any language information or with a 1-hot language ID (LID)
vector to guide the recognition of the target language. In practice, the user
can be prompted to pre-select several languages he/she can speak. The
multilingual model without LID cannot well utilize the language information set
by the user while the multilingual model with LID can only handle one
pre-selected language. In this paper, we propose a novel configurable
multilingual model (CMM) which is trained only once but can be configured as
different models based on users' choices by extracting language-specific
modules together with a universal model from the trained CMM. Particularly, a
single CMM can be deployed to any user scenario where the users can pre-select
any combination of languages. Trained with 75K hours of transcribed anonymized
Microsoft multilingual data and evaluated with 10-language test sets, the
proposed CMM improves from the universal multilingual model by 26.0%, 16.9%,
and 10.4% relative word error reduction when the user selects 1, 2, or 3
languages, respectively. CMM also performs significantly better on
code-switching test sets.
- Abstract(参考訳): マルチリンガル自動音声認識(ASR)モデルは、モデルトレーニングと展開プロセスの簡略化により近年大きな可能性を秘めている。
従来の手法では、言語情報を受け取らずに普遍的な多言語モデルを訓練するか、1ホット言語ID(LID)ベクターを用いて目標言語の認識を誘導する。
実際には、ユーザーはいくつかの言語を事前に選択するよう促すことができる。
LIDのない多言語モデルは、ユーザが設定した言語情報をうまく利用できないが、LIDを持つ多言語モデルは、1つの事前選択された言語しか扱えない。
本稿では,言語固有のモジュールをトレーニングされたCMMからユニバーサルモデルとともに抽出することにより,ユーザ選択に基づいて異なるモデルとして構成できる新しい構成可能な多言語モデル(CMM)を提案する。
特に,ひとつのCMMを任意のユーザシナリオにデプロイすることで,任意の言語の組み合わせを事前に選択することができる。
匿名化microsoft multilingual dataを75k時間トレーニングし、10言語テストセットで評価したcmmは、ユーザが1, 2, 3言語を選択すると、ユニバーサル多言語モデルから26.0%、16.9%、相対的単語誤り低減10.4%改善する。
CMMはコードスイッチングテストセットでも大幅に改善されている。
関連論文リスト
- Streaming Bilingual End-to-End ASR model using Attention over Multiple
Softmax [6.386371634323785]
本稿では,両言語を単一のニューラルモデルで認識可能な,バイリンガル・エンド・ツー・エンド(E2E)モデリング手法を提案する。
提案モデルでは,自己認識機構によって結合された言語固有のジョイントネットワークを用いて,エンコーダと予測ネットワークを共有する。
論文 参考訳(メタデータ) (2024-01-22T01:44:42Z) - Adapting the adapters for code-switching in multilingual ASR [10.316724084739892]
訓練済みの大規模多言語音声モデルは、多くの低リソース言語に自動音声認識を拡張できる可能性を示している。
これらのモデルのいくつかは、言語アダプタを定式化に用い、モノリンガルのパフォーマンスを改善するのに役立つ。
この定式化は、2つの言語が同じ発話で混在するコードスイッチト音声におけるこれらのモデルのユーザビリティを制限する。
提案手法は,ネットワーク内の各言語適応点において,両言語アダプタからの情報を同調することにより,コード切替音声上でそのようなモデルを効果的に微調整する方法である。
論文 参考訳(メタデータ) (2023-10-11T12:15:24Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Cross-Lingual Text Classification with Multilingual Distillation and
Zero-Shot-Aware Training [21.934439663979663]
多言語事前学習言語モデル(MPLM)に基づくマルチブランチ多言語言語モデル(MBLM)
教師学習フレームワークを用いた高性能単言語モデルからの知識の伝達に基づく方法
2つの言語横断型分類タスクの結果から,MPLMの教師付きデータのみを用いることで,教師付き性能とゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2022-02-28T09:51:32Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - GLUECoS : An Evaluation Benchmark for Code-Switched NLP [17.066725832825423]
コード切替言語に対する評価ベンチマーク GLUECoS を提案する。
英語・ヒンディー語・英語・スペイン語におけるNLP課題について報告する。
我々は、人工的に生成されたコード切替データに基づいて、多言語モデルを微調整する。
論文 参考訳(メタデータ) (2020-04-26T13:28:34Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。