論文の概要: mmT5: Modular Multilingual Pre-Training Solves Source Language
Hallucinations
- arxiv url: http://arxiv.org/abs/2305.14224v1
- Date: Tue, 23 May 2023 16:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 14:45:19.908320
- Title: mmT5: Modular Multilingual Pre-Training Solves Source Language
Hallucinations
- Title(参考訳): mmt5:modular multilingual pre-trainingは、ソース言語幻覚を解消する
- Authors: Jonas Pfeiffer, Francesco Piccinno, Massimo Nicosia, Xinyi Wang,
Machel Reid, Sebastian Ruder
- Abstract要約: mmT5はモジュール型多言語シーケンス・ツー・シーケンスモデルである。
言語固有の情報を言語に依存しない情報から切り離す。
mT5と比較して、mT5はゼロショット設定で正しい言語でテキストを生成する率を7%から99%に向上させる。
- 参考スコア(独自算出の注目度): 54.42422445568523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual sequence-to-sequence models perform poorly with increased
language coverage and fail to consistently generate text in the correct target
language in few-shot settings. To address these challenges, we propose mmT5, a
modular multilingual sequence-to-sequence model. mmT5 utilizes
language-specific modules during pre-training, which disentangle
language-specific information from language-agnostic information. We identify
representation drift during fine-tuning as a key limitation of modular
generative models and develop strategies that enable effective zero-shot
transfer. Our model outperforms mT5 at the same parameter sizes by a large
margin on representative natural language understanding and generation tasks in
40+ languages. Compared to mT5, mmT5 raises the rate of generating text in the
correct language under zero-shot settings from 7% to 99%, thereby greatly
alleviating the source language hallucination problem.
- Abstract(参考訳): 多言語シーケンス・ツー・シーケンスモデルでは、言語カバレッジの増加とともに性能が悪く、数ショット設定で適切なターゲット言語でテキストを一貫して生成できない。
これらの課題に対処するため,モジュール型多言語シーケンス列列モデルmmT5を提案する。
mmT5は事前訓練中に言語固有のモジュールを使用し、言語に依存しない情報から言語固有の情報を遠ざけている。
モジュラー生成モデルの鍵となる制限として,微調整時の表現ドリフトを識別し,効果的なゼロショット転送を可能にする戦略を開発する。
我々のモデルは、40以上の言語における代表的自然言語理解および生成タスクにおいて、mT5を同じパラメータサイズで比較する。
mT5と比較して、mT5はゼロショット設定で正しい言語でテキストを生成する確率を7%から99%に引き上げ、ソースコードの幻覚の問題を大幅に緩和する。
関連論文リスト
- Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - idT5: Indonesian Version of Multilingual T5 Transformer [0.0]
インドネシア語は2億人近い人々によって話されており、世界で10番目に話されている言語である。
本研究では,mT5モデルがインドネシア語にのみ適用され,インドネシア語のみに限定した訓練済みのT5モデルが得られた。
本モデルに基づく微調整モデルでは,SAでは77.18%,mT5モデルより8%高い精度を示し,QGおよびQAではmT5モデルとほぼ同じスコアを得た。
論文 参考訳(メタデータ) (2023-02-02T03:56:16Z) - Evaluating Byte and Wordpiece Level Models for Massively Multilingual
Semantic Parsing [3.431659287330068]
バイトレベル(ByT5)とワードピースベース(mT5)をMASSIVE多言語意味解析データセットの51言語におけるシーケンスモデルと比較する。
すべての言語からのゴールドデータに基づいてトレーニングされたモデルに対して、正確なマッチング精度のギャップを5ポイントに縮めることができます。
論文 参考訳(メタデータ) (2022-12-14T13:48:32Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - T5lephone: Bridging Speech and Text Self-supervised Models for Spoken
Language Understanding via Phoneme level T5 [65.32642587901903]
我々は、異なるトークン化戦略を持つPLMが音声言語理解タスクにどのように影響するかを広範囲に研究する。
我々は、音素化されたテキストを使って事前訓練されたT5の変種であるT5lephoneを作成するためのアイデアを拡張した。
論文 参考訳(メタデータ) (2022-11-01T17:00:23Z) - Sequence to sequence pretraining for a less-resourced Slovenian language [0.0]
我々は2つの異なる大きさのT5型配列を、より少ない資源で形態的にリッチなスロベニア語のシーケンスモデルに訓練し、それらの振る舞いを分析した。
分類タスクに関しては、SloT5モデルはモノリンガルなSlovene SloBERTaモデルより遅れているが、生成タスクには考慮されている。
論文 参考訳(メタデータ) (2022-07-28T10:08:50Z) - mT6: Multilingual Pretrained Text-to-Text Transformer with Translation
Pairs [51.67970832510462]
翻訳ペア(mt6)を用いた多言語テキスト間トランスフォーマーの改良
本研究では,機械翻訳,翻訳ペアスパン破壊,翻訳スパン破壊という3つの言語間事前学習タスクについて検討した。
実験の結果,mT6はmT5よりも舌間移動性が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-18T03:24:07Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。