論文の概要: Mu$^{2}$SLAM: Multitask, Multilingual Speech and Language Models
- arxiv url: http://arxiv.org/abs/2212.09553v1
- Date: Mon, 19 Dec 2022 15:45:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 18:24:12.793862
- Title: Mu$^{2}$SLAM: Multitask, Multilingual Speech and Language Models
- Title(参考訳): Mu$^{2}$SLAM:マルチタスク、多言語音声、言語モデル
- Authors: Yong Cheng, Yu Zhang, Melvin Johnson, Wolfgang Macherey, Ankur Bapna
- Abstract要約: ラベルなし音声, ラベルなしテキスト, 教師付きデータを100以上の言語で事前学習した多言語列列列列モデルである Mu$2$SLAM を提案する。
Mu$2$SLAM は、ターゲットとしての音声の量子化表現を活用することで、デコーダ上の T5 と同様のシーケンスからシーケンスへのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスによる音声テキストモデルと、エンコーダ上のマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスモデル(MLM)を訓練する。
Voxpopuli ASRでは、我々のモデルはRNN-Tデコーダで微調整されたmSLAMモデルの性能と一致する。
- 参考スコア(独自算出の注目度): 37.44999077096415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Mu$^{2}$SLAM, a multilingual sequence-to-sequence model
pre-trained jointly on unlabeled speech, unlabeled text and supervised data
spanning Automatic Speech Recognition (ASR), Automatic Speech Translation (AST)
and Machine Translation (MT), in over 100 languages. By leveraging a quantized
representation of speech as a target, Mu$^{2}$SLAM trains the speech-text
models with a sequence-to-sequence masked denoising objective similar to T5 on
the decoder and a masked language modeling (MLM) objective on the encoder, for
both unlabeled speech and text, while utilizing the supervised tasks to improve
cross-lingual and cross-modal representation alignment within the model. On
CoVoST AST, Mu$^{2}$SLAM establishes a new state-of-the-art for models trained
on public datasets, improving on xx-en translation over the previous best by
1.9 BLEU points and on en-xx translation by 1.1 BLEU points. On Voxpopuli ASR,
our model matches the performance of an mSLAM model fine-tuned with an RNN-T
decoder, despite using a relatively weaker sequence-to-sequence architecture.
On text understanding tasks, our model improves by more than 6\% over mSLAM on
XNLI, getting closer to the performance of mT5 models of comparable capacity on
XNLI and TydiQA, paving the way towards a single model for all speech and text
understanding tasks.
- Abstract(参考訳): 自動音声認識(asr)、自動音声翻訳(ast)、機械翻訳(mt)にまたがる教師付きデータとラベルなし音声とラベルなしテキストを100以上の言語で事前学習した多言語系列対シーケンスモデルであるmu$^{2}$slamを提案する。
Mu$^{2}$SLAM は、ターゲットとして音声の量子化表現を活用することにより、デコーダ上の T5 に類似したシークエンスとエンコーダ上のマスク付き言語モデリング(MLM)の目的で音声テキストモデルを訓練し、教師付きタスクを活用して、モデル内の言語間およびモーダル間の表現アライメントを改善する。
CoVoST ASTでは、Mu$^{2}$SLAMが、公開データセットでトレーニングされたモデルの新たな最先端性を確立し、xx-en翻訳を1.9 BLEUポイント、en-xx翻訳を1.1 BLEUポイントで改善した。
voxpopuli asrでは,sequence-to-sequenceアーキテクチャが比較的弱いにもかかわらず,rnn-tデコーダで微調整されたmslamモデルの性能に適合する。
テキスト理解タスクでは、XNLI上のmSLAMよりも6\%以上向上し、XNLIとTydiQAで同等の能力を持つmT5モデルの性能に近づき、すべての音声およびテキスト理解タスクの単一モデルへの道を開いた。
関連論文リスト
- SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - Chain-of-Thought Prompting for Speech Translation [33.77037760225061]
大規模言語モデル(LLM)は言語理解と生成において顕著な進歩を見せている。
近年の研究では、これらのモデルを音声埋め込みに応用し、高い性能を示す音声-LLMモデルを実現している。
本稿では,エンコーダ-デコーダテキスト LLM 上に構築された音声-LLM において,AST のプロンプトとして ASR 転写を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T20:16:43Z) - Investigating Decoder-only Large Language Models for Speech-to-text Translation [39.17113782374464]
大規模言語モデル (LLM) は、様々なドメインにまたがる例外的な推論能力、一般化可能性、およびレイテンシで知られている。
我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。
本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-03T14:42:49Z) - A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - mmT5: Modular Multilingual Pre-Training Solves Source Language
Hallucinations [54.42422445568523]
mmT5はモジュール型多言語シーケンス・ツー・シーケンスモデルである。
言語固有の情報を言語に依存しない情報から切り離す。
mT5と比較して、mT5はゼロショット設定で正しい言語でテキストを生成する率を7%から99%に向上させる。
論文 参考訳(メタデータ) (2023-05-23T16:38:01Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。