論文の概要: AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq
Model
- arxiv url: http://arxiv.org/abs/2208.01448v1
- Date: Tue, 2 Aug 2022 13:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 12:49:43.618482
- Title: AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq
Model
- Title(参考訳): AlexaTM 20B: 大規模多言語Seq2Seqモデルを用いたFew-Shot Learning
- Authors: Saleh Soltan, Shankar Ananthakrishnan, Jack FitzGerald, Rahul Gupta,
Wael Hamza, Haidar Khan, Charith Peris, Stephen Rawls, Andy Rosenbaum, Anna
Rumshisky, Chandana Satya Prakash, Mukund Sridhar, Fabian Triefenbach, Apurv
Verma, Gokhan Tur, Prem Natarajan
- Abstract要約: マルチリンガルな大規模シーケンス・ツー・シーケンス(seq2seq)モデルは、様々なタスクにおけるデコーダのみのモデルよりも、より効率的であることを示す。
我々は、Alexa Teacher Model (AlexaTM 20B)と呼ばれる200億のパラメータのSeq2seqモデルをトレーニングし、1ショットの要約タスクで最先端(SOTA)のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 25.882090467270224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we demonstrate that multilingual large-scale
sequence-to-sequence (seq2seq) models, pre-trained on a mixture of denoising
and Causal Language Modeling (CLM) tasks, are more efficient few-shot learners
than decoder-only models on various tasks. In particular, we train a 20 billion
parameter multilingual seq2seq model called Alexa Teacher Model (AlexaTM 20B)
and show that it achieves state-of-the-art (SOTA) performance on 1-shot
summarization tasks, outperforming a much larger 540B PaLM decoder model.
AlexaTM 20B also achieves SOTA in 1-shot machine translation, especially for
low-resource languages, across almost all language pairs supported by the model
(Arabic, English, French, German, Hindi, Italian, Japanese, Marathi,
Portuguese, Spanish, Tamil, and Telugu) on Flores-101 dataset. We also show in
zero-shot setting, AlexaTM 20B outperforms GPT3 (175B) on SuperGLUE and SQuADv2
datasets and provides SOTA performance on multilingual tasks such as XNLI,
XCOPA, Paws-X, and XWinograd. Overall, our results present a compelling case
for seq2seq models as a powerful alternative to decoder-only models for
Large-scale Language Model (LLM) training.
- Abstract(参考訳): 本研究では,多言語大規模シーケンス・ツー・シークエンス(seq2seq)モデルにおいて,様々なタスクにおけるデコーダのみのモデルよりも,より効率的な学習者であることを実証する。
特に,Alexa Teacher Model (AlexaTM 20B) と呼ばれる200億のパラメータのセク2セックモデルをトレーニングし,一括要約タスクにおける最先端(SOTA)のパフォーマンスを達成し,さらに大きな540B PaLMデコーダモデルを上回る性能を示す。
AlexaTM 20Bはまた、フローレス101データセット上のモデル(アラビア語、英語、フランス語、ドイツ語、ヒンディー語、イタリア語、日本語、マラシ語、ポルトガル語、スペイン語、タミル語、テルグ語)でサポートされているほぼすべての言語ペアに対して、1ショットの機械翻訳でSOTAを達成している。
また、ゼロショット設定では、AlexaTM 20BがSuperGLUEおよびSQuADv2データセット上でGPT3 (175B)を上回り、XNLI、XCOPA、Paws-X、XWinogradなどの多言語タスクでSOTAパフォーマンスを提供する。
全体として,大規模言語モデル(llm)トレーニングのためのデコーダのみのモデルに代わる強力な選択肢として,seq2seqモデルに説得力のある事例を示す。
関連論文リスト
- Automatic Speech Recognition for the Ika Language [0.0]
IkaのNew Testament Bible Multilingualから収集した高品質な音声データセット上で、事前学習したwav2vec 2.0の大規模翻訳を行う。
この結果から,微調整による事前学習モデルでは単語誤り率(WER)が0.5377,文字誤り率(CER)が0.2651となり,学習時間は1時間を超えることがわかった。
論文 参考訳(メタデータ) (2024-10-01T11:56:42Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Mu$^{2}$SLAM: Multitask, Multilingual Speech and Language Models [37.44999077096415]
ラベルなし音声, ラベルなしテキスト, 教師付きデータを100以上の言語で事前学習した多言語列列列列モデルである Mu$2$SLAM を提案する。
Mu$2$SLAM は、ターゲットとしての音声の量子化表現を活用することで、デコーダ上の T5 と同様のシーケンスからシーケンスへのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスによる音声テキストモデルと、エンコーダ上のマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスモデル(MLM)を訓練する。
Voxpopuli ASRでは、我々のモデルはRNN-Tデコーダで微調整されたmSLAMモデルの性能と一致する。
論文 参考訳(メタデータ) (2022-12-19T15:45:36Z) - SMaLL-100: Introducing Shallow Multilingual Machine Translation Model
for Low-Resource Languages [102.50127671423752]
本稿では,100言語をカバーするM2M-100(12B)機械翻訳モデルの蒸留版であるSMaLL-100を紹介する。
我々はSMALL-100を全ての言語対を均一にサンプリングすることで訓練し、低リソース言語の性能を維持することに重点を置いている。
我々のモデルはM2M-100(1.2B)に匹敵する結果を得るが、推論では3.6倍小さく、4.3倍高速である。
論文 参考訳(メタデータ) (2022-10-20T22:32:29Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - A Good Prompt Is Worth Millions of Parameters? Low-resource Prompt-based
Learning for Vision-Language Models [50.27305012063483]
FewVLMは、視覚言語タスクに関する数発のプロンプトベースの学習ツールである。
我々はプレフィックス言語モデリング(PrefixLM)とマスク言語モデリング(MaskedLM)を併用したシーケンス・ツー・シーケンス・トランスフォーマーモデルを事前訓練する。
このプロンプトはゼロショット性能に大きく影響するが、少数ショット性能にはほとんど影響しない。
論文 参考訳(メタデータ) (2021-10-16T06:07:59Z) - Larger-Scale Transformers for Multilingual Masked Language Modeling [16.592883204398518]
XLM-R XLとXLM-R XXLはXLM-Rよりも1.8%、XNLIの平均精度は2.4%向上した。
また、GLUEベンチマークの英語タスクのRoBERTa-Largeモデルを平均0.3%上回り、99以上の言語を扱う。
論文 参考訳(メタデータ) (2021-05-02T23:15:02Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。