論文の概要: IT5: Large-scale Text-to-text Pretraining for Italian Language
Understanding and Generation
- arxiv url: http://arxiv.org/abs/2203.03759v1
- Date: Mon, 7 Mar 2022 22:39:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 04:00:36.854754
- Title: IT5: Large-scale Text-to-text Pretraining for Italian Language
Understanding and Generation
- Title(参考訳): IT5: イタリア語理解と生成のための大規模テキスト・テキスト・プレトレーニング
- Authors: Gabriele Sarti, Malvina Nissim
- Abstract要約: イタリアで事前訓練されたエンコーダ・デコーダ・トランスフォーマーモデルの最初のファミリーであるIT5を紹介する。
われわれは、400億語以上の単語を含むWebcrawled Italian corpusを徹底的にクリーニングし、異なるサイズの3つのIT5モデルを事前訓練するために使用します。
モノリンガルなIT5モデルは、テスト対象のモデル間で最高のスケールとパフォーマンスの比率を提供し、一貫してマルチリンガルなモデルよりも優れ、イタリアのほとんどの条件付き言語生成タスクにおいて新しい最先端のタスクを設定できる。
- 参考スコア(独自算出の注目度): 10.838154701848662
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The T5 model and its unified text-to-text paradigm contributed in advancing
the state-of-the-art for many natural language processing tasks. While some
multilingual variants of the T5 model have recently been introduced, their
performances were found to provide suboptimal performances for languages other
than English if compared to monolingual variants. We are motivated by these
findings to introduce IT5, the first family of encoder-decoder transformer
models pretrained specifically on Italian. We perform a thorough cleaning of a
web-crawled Italian corpus including more than 40 billion words and use it to
pretrain three IT5 models of different sizes. The performance of IT5 models and
their multilingual counterparts is then evaluated on a broad range of natural
language understanding and generation benchmarks for Italian. We find the
monolingual IT5 models to provide the best scale-to-performance ratio across
tested models, consistently outperforming their multilingual counterparts and
setting a new state-of-the-art for most Italian conditional language generation
tasks.
- Abstract(参考訳): T5モデルとその統一テキスト-テキストパラダイムは、多くの自然言語処理タスクの最先端化に寄与した。
T5モデルの多言語変種が最近導入されたが、その性能は単言語変種と比較して英語以外の言語に最適なパフォーマンスを提供することがわかった。
これらの発見を動機として,イタリア語で事前訓練されたエンコーダ・デコーダトランスモデルの最初のファミリーであるIT5を紹介した。
われわれは、400億語以上の単語を含むWebcrawled Italian corpusを徹底的にクリーニングし、異なるサイズの3つのIT5モデルを事前訓練するために使用します。
IT5モデルとその多言語モデルの性能は、イタリア語に対する幅広い自然言語理解および生成ベンチマークで評価される。
モノリンガルなIT5モデルは、テスト対象のモデル間で最高のスケールとパフォーマンスの比率を提供し、一貫してマルチリンガルなモデルよりも優れ、イタリアのほとんどの条件付き言語生成タスクにおいて新しい最先端のタスクを設定できる。
関連論文リスト
- Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - mmT5: Modular Multilingual Pre-Training Solves Source Language
Hallucinations [54.42422445568523]
mmT5はモジュール型多言語シーケンス・ツー・シーケンスモデルである。
言語固有の情報を言語に依存しない情報から切り離す。
mT5と比較して、mT5はゼロショット設定で正しい言語でテキストを生成する率を7%から99%に向上させる。
論文 参考訳(メタデータ) (2023-05-23T16:38:01Z) - idT5: Indonesian Version of Multilingual T5 Transformer [0.0]
インドネシア語は2億人近い人々によって話されており、世界で10番目に話されている言語である。
本研究では,mT5モデルがインドネシア語にのみ適用され,インドネシア語のみに限定した訓練済みのT5モデルが得られた。
本モデルに基づく微調整モデルでは,SAでは77.18%,mT5モデルより8%高い精度を示し,QGおよびQAではmT5モデルとほぼ同じスコアを得た。
論文 参考訳(メタデータ) (2023-02-02T03:56:16Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - Sequence to sequence pretraining for a less-resourced Slovenian language [0.0]
我々は2つの異なる大きさのT5型配列を、より少ない資源で形態的にリッチなスロベニア語のシーケンスモデルに訓練し、それらの振る舞いを分析した。
分類タスクに関しては、SloT5モデルはモノリンガルなSlovene SloBERTaモデルより遅れているが、生成タスクには考慮されている。
論文 参考訳(メタデータ) (2022-07-28T10:08:50Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。