論文の概要: UML: A Universal Monolingual Output Layer for Multilingual ASR
- arxiv url: http://arxiv.org/abs/2302.11186v1
- Date: Wed, 22 Feb 2023 07:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 16:10:00.002501
- Title: UML: A Universal Monolingual Output Layer for Multilingual ASR
- Title(参考訳): UML:多言語ASRのための共通単言語出力層
- Authors: Chao Zhang, Bo Li, Tara N. Sainath, Trevor Strohman, Shuo-yiin Chang
- Abstract要約: ワードピースモデル(WPM)は、エンドツーエンドの自動音声認識(ASR)システムにおいて一般的に使用されるサブワード単位である。
言語間のスクリプトの相違により、多言語 ASR では、多言語 WPM は過度に大きな出力層を持ち、より多くの言語に拡張するという課題をもたらす。
このような問題に対処するための共通単言語出力層(UML)を提案する。
- 参考スコア(独自算出の注目度): 37.67069264306247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word-piece models (WPMs) are commonly used subword units in state-of-the-art
end-to-end automatic speech recognition (ASR) systems. For multilingual ASR,
due to the differences in written scripts across languages, multilingual WPMs
bring the challenges of having overly large output layers and scaling to more
languages. In this work, we propose a universal monolingual output layer (UML)
to address such problems. Instead of one output node for only one WPM, UML
re-associates each output node with multiple WPMs, one for each language, and
results in a smaller monolingual output layer shared across languages.
Consequently, the UML enables to switch in the interpretation of each output
node depending on the language of the input speech. Experimental results on an
11-language voice search task demonstrated the feasibility of using UML for
high-quality and high-efficiency multilingual streaming ASR.
- Abstract(参考訳): ワードピースモデル(wpms)は、最先端の自動音声認識(asr)システムで一般的に使用されるサブワード単位である。
言語間のスクリプトの相違により、多言語 ASR では、多言語 WPM は過度に大きな出力層を持ち、より多くの言語に拡張するという課題をもたらす。
本研究では,このような問題に対処するための共通単言語出力層(UML)を提案する。
1つのwpmのみの出力ノードの代わりに、umlは複数のwpmで各出力ノードを再結合し、言語毎に1つずつ、より小さな単言語出力層を言語間で共有する。
これにより、UMLは入力音声の言語によって各出力ノードの解釈を切り替えることができる。
11言語音声検索における実験結果から,高品質かつ高効率なマルチリンガルストリーミングASRにおけるUMLの有効性が示された。
関連論文リスト
- Machine-Created Universal Language for Cross-lingual Transfer [73.44138687502294]
代替中間言語として,MUL(Machine-created Universal Language)を提案する。
MULは、MUL翻訳者に対する普遍的な語彙と自然言語を形成する独立したシンボルの集合からなる。
MULは、様々な言語から共有される概念を単一の普遍語に統一し、言語間の移動を強化する。
論文 参考訳(メタデータ) (2023-05-22T14:41:09Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Multilingual Entity and Relation Extraction from Unified to
Language-specific Training [29.778332361215636]
エンティティと関係抽出タスクの既存のアプローチは、主に英語のコーパスに焦点を当て、他の言語を無視している。
言語干渉を軽減するために,2段階の多言語学習手法と,Multilingual Entity and Relation extract framework (mERE) と呼ばれるジョイントモデルを提案する。
本手法はモノリンガル法と多言語ベースライン法の両方に優れる。
論文 参考訳(メタデータ) (2023-01-11T12:26:53Z) - LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine
Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。
最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。
7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文 参考訳(メタデータ) (2022-10-19T12:21:39Z) - Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular
Vision-Language Pre-training [120.91411454661741]
視覚言語認識と生成を容易にするための訓練済みユニバーサル・デコーダネットワーク(Uni-EDEN)を提案する。
Uni-EDENは2ストリームトランスフォーマーベースの構造で、オブジェクトと文エンコーダの3つのモジュールで構成され、各モダリティの表現を別々に学習する。
論文 参考訳(メタデータ) (2022-01-11T16:15:07Z) - Multilingual Speech Translation with Unified Transformer: Huawei Noah's
Ark Lab at IWSLT 2021 [33.876412404781846]
本稿では,Huawei Noah の Ark Lab から IWSLT 2021 Speech Translation (MultiST) タスクに送信されたシステムについて述べる。
我々は、MultiSTモデルに統一トランスフォーマーアーキテクチャを使用し、異なるモダリティからのデータを活用してモデルの能力を高める。
マルチタスク学習やタスクレベルのカリキュラム学習,データ拡張など,パフォーマンス向上のために,いくつかのトレーニング手法を適用した。
論文 参考訳(メタデータ) (2021-06-01T02:50:49Z) - Enabling Zero-shot Multilingual Spoken Language Translation with
Language-Specific Encoders and Decoders [5.050654565113709]
Spoken Language Translationへの現在のエンドツーエンドアプローチは、限られたトレーニングリソースに依存しています。
提案手法は,言語固有のエンコーダデコーダに基づくMultiNMTアーキテクチャを多言語SLTのタスクに拡張する。
論文 参考訳(メタデータ) (2020-11-02T16:31:14Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。