Fugu-MT 論文翻訳(概要): UML: A Universal Monolingual Output Layer for Multilingual ASR

論文の概要: UML: A Universal Monolingual Output Layer for Multilingual ASR

arxiv url: http://arxiv.org/abs/2302.11186v1
Date: Wed, 22 Feb 2023 07:40:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-23 16:10:00.002501
Title: UML: A Universal Monolingual Output Layer for Multilingual ASR
Title（参考訳）: UML:多言語ASRのための共通単言語出力層
Authors: Chao Zhang, Bo Li, Tara N. Sainath, Trevor Strohman, Shuo-yiin Chang
Abstract要約: ワードピースモデル(WPM)は、エンドツーエンドの自動音声認識(ASR)システムにおいて一般的に使用されるサブワード単位である。言語間のスクリプトの相違により、多言語 ASR では、多言語 WPM は過度に大きな出力層を持ち、より多くの言語に拡張するという課題をもたらす。このような問題に対処するための共通単言語出力層(UML)を提案する。
参考スコア（独自算出の注目度）: 37.67069264306247
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Word-piece models (WPMs) are commonly used subword units in state-of-the-art end-to-end automatic speech recognition (ASR) systems. For multilingual ASR, due to the differences in written scripts across languages, multilingual WPMs bring the challenges of having overly large output layers and scaling to more languages. In this work, we propose a universal monolingual output layer (UML) to address such problems. Instead of one output node for only one WPM, UML re-associates each output node with multiple WPMs, one for each language, and results in a smaller monolingual output layer shared across languages. Consequently, the UML enables to switch in the interpretation of each output node depending on the language of the input speech. Experimental results on an 11-language voice search task demonstrated the feasibility of using UML for high-quality and high-efficiency multilingual streaming ASR.
Abstract（参考訳）: ワードピースモデル(wpms)は、最先端の自動音声認識(asr)システムで一般的に使用されるサブワード単位である。言語間のスクリプトの相違により、多言語 ASR では、多言語 WPM は過度に大きな出力層を持ち、より多くの言語に拡張するという課題をもたらす。本研究では,このような問題に対処するための共通単言語出力層(UML)を提案する。 1つのwpmのみの出力ノードの代わりに、umlは複数のwpmで各出力ノードを再結合し、言語毎に1つずつ、より小さな単言語出力層を言語間で共有する。これにより、UMLは入力音声の言語によって各出力ノードの解釈を切り替えることができる。 11言語音声検索における実験結果から,高品質かつ高効率なマルチリンガルストリーミングASRにおけるUMLの有効性が示された。

関連論文リスト

Zero-resource Speech Translation and Recognition with LLMs [38.11535502039386]
我々は,ペア音声テキストデータを見たことのない言語において,多言語大言語モデル(LLM)を用いてSTとASRを実行することを提案する。我々は、事前訓練された多言語音声エンコーダ、多言語LLM、およびLLMのトークン埋め込み空間に音声表現をマッピングする軽量適応モジュールを用いて、これを実現する。
論文参考訳（メタデータ） (2024-12-24T17:37:11Z)
LAMA-UT: Language Agnostic Multilingual ASR through Orthography Unification and Language-Specific Transliteration [19.403991814044424]
正書法統一とLAMA-UT(Language-Agnostic Multilingual ASR Pipeline)による言語に依存しないASRパイプラインを提案する。 LAMA-UTは、最小限のデータ量でトレーニングされた最先端モデルのパフォーマンスに適合しながら、言語固有のモジュールなしで動作します。パイプラインはWhisperと比較して45%の相対誤差低減率を実現し,MMSと相容れない性能を示した。
論文参考訳（メタデータ） (2024-12-19T10:39:08Z)
Enhancing Multilingual Speech Generation and Recognition Abilities in LLMs with Constructed Code-switched Data [30.966072545451183]
本論文では,MutltiLingual MultiTask (MLMT)モデルを提案する。我々は,異なる言語からの単語を分割し,CSデータに頼ることなくCS能力を備えた合成を行う,効果的なデータ構築手法を開発した。
論文参考訳（メタデータ） (2024-09-17T08:11:07Z)
Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文参考訳（メタデータ） (2024-06-04T17:56:28Z)
LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback [61.23008372927665]
我々はLLaMAとBLOOMの多言語機能を100言語に拡張するxLLMs-100を紹介する。 5つの多言語ベンチマークでxLLMs-100の多言語理解と生成能力を評価する。
論文参考訳（メタデータ） (2024-06-03T20:25:12Z)
Mitigating Language-Level Performance Disparity in mPLMs via Teacher Language Selection and Cross-lingual Self-Distillation [25.850573463743352]
大規模多言語事前訓練言語モデル(mPLMs)は、言語横断タスクにおいて優れた性能を発揮する。しかし、mPLM内では異なる言語にまたがって大きな性能格差が存在する。我々は ALSACE を導入し,優れた言語から学んだ知識を活用して,mPLM の低性能言語を誘導する。
論文参考訳（メタデータ） (2024-04-12T14:19:16Z)
How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。 LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文参考訳（メタデータ） (2024-02-29T02:55:26Z)
Machine-Created Universal Language for Cross-lingual Transfer [73.44138687502294]
代替中間言語として,MUL(Machine-created Universal Language)を提案する。 MULは、MUL翻訳者に対する普遍的な語彙と自然言語を形成する独立したシンボルの集合からなる。 MULは、様々な言語から共有される概念を単一の普遍語に統一し、言語間の移動を強化する。
論文参考訳（メタデータ） (2023-05-22T14:41:09Z)
LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。 7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文参考訳（メタデータ） (2022-10-19T12:21:39Z)
Enabling Zero-shot Multilingual Spoken Language Translation with Language-Specific Encoders and Decoders [5.050654565113709]
Spoken Language Translationへの現在のエンドツーエンドアプローチは、限られたトレーニングリソースに依存しています。提案手法は,言語固有のエンコーダデコーダに基づくMultiNMTアーキテクチャを多言語SLTのタスクに拡張する。
論文参考訳（メタデータ） (2020-11-02T16:31:14Z)
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文参考訳（メタデータ） (2020-09-10T22:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。