論文の概要: IT5: Large-scale Text-to-text Pretraining for Italian Language
Understanding and Generation
- arxiv url: http://arxiv.org/abs/2203.03759v1
- Date: Mon, 7 Mar 2022 22:39:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 04:00:36.854754
- Title: IT5: Large-scale Text-to-text Pretraining for Italian Language
Understanding and Generation
- Title(参考訳): IT5: イタリア語理解と生成のための大規模テキスト・テキスト・プレトレーニング
- Authors: Gabriele Sarti, Malvina Nissim
- Abstract要約: イタリアで事前訓練されたエンコーダ・デコーダ・トランスフォーマーモデルの最初のファミリーであるIT5を紹介する。
われわれは、400億語以上の単語を含むWebcrawled Italian corpusを徹底的にクリーニングし、異なるサイズの3つのIT5モデルを事前訓練するために使用します。
モノリンガルなIT5モデルは、テスト対象のモデル間で最高のスケールとパフォーマンスの比率を提供し、一貫してマルチリンガルなモデルよりも優れ、イタリアのほとんどの条件付き言語生成タスクにおいて新しい最先端のタスクを設定できる。
- 参考スコア(独自算出の注目度): 10.838154701848662
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The T5 model and its unified text-to-text paradigm contributed in advancing
the state-of-the-art for many natural language processing tasks. While some
multilingual variants of the T5 model have recently been introduced, their
performances were found to provide suboptimal performances for languages other
than English if compared to monolingual variants. We are motivated by these
findings to introduce IT5, the first family of encoder-decoder transformer
models pretrained specifically on Italian. We perform a thorough cleaning of a
web-crawled Italian corpus including more than 40 billion words and use it to
pretrain three IT5 models of different sizes. The performance of IT5 models and
their multilingual counterparts is then evaluated on a broad range of natural
language understanding and generation benchmarks for Italian. We find the
monolingual IT5 models to provide the best scale-to-performance ratio across
tested models, consistently outperforming their multilingual counterparts and
setting a new state-of-the-art for most Italian conditional language generation
tasks.
- Abstract(参考訳): T5モデルとその統一テキスト-テキストパラダイムは、多くの自然言語処理タスクの最先端化に寄与した。
T5モデルの多言語変種が最近導入されたが、その性能は単言語変種と比較して英語以外の言語に最適なパフォーマンスを提供することがわかった。
これらの発見を動機として,イタリア語で事前訓練されたエンコーダ・デコーダトランスモデルの最初のファミリーであるIT5を紹介した。
われわれは、400億語以上の単語を含むWebcrawled Italian corpusを徹底的にクリーニングし、異なるサイズの3つのIT5モデルを事前訓練するために使用します。
IT5モデルとその多言語モデルの性能は、イタリア語に対する幅広い自然言語理解および生成ベンチマークで評価される。
モノリンガルなIT5モデルは、テスト対象のモデル間で最高のスケールとパフォーマンスの比率を提供し、一貫してマルチリンガルなモデルよりも優れ、イタリアのほとんどの条件付き言語生成タスクにおいて新しい最先端のタスクを設定できる。
関連論文リスト
- Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - Exploring Large Language Models for Classical Philology [17.856304057963776]
我々は古代ギリシア語のための4つの言語モデルを作成し、2つの次元に沿って異なる。
補題化を含む形態的および構文的タスクに関する全てのモデルを評価する。
その結果、私たちのモデルはSoTAよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-05-23T05:21:02Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - Sequence to sequence pretraining for a less-resourced Slovenian language [0.0]
我々は2つの異なる大きさのT5型配列を、より少ない資源で形態的にリッチなスロベニア語のシーケンスモデルに訓練し、それらの振る舞いを分析した。
分類タスクに関しては、SloT5モデルはモノリンガルなSlovene SloBERTaモデルより遅れているが、生成タスクには考慮されている。
論文 参考訳(メタデータ) (2022-07-28T10:08:50Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - IndT5: A Text-to-Text Transformer for 10 Indigenous Languages [7.952582509792971]
IndT5は、Indigenous言語のためのトランスフォーマー言語モデルである。
IndCorpusは10の先住民言語とスペイン語のための新しいデータセットです。
本稿では,IndT5の機械翻訳への応用について,スペイン語とインド固有の言語間の翻訳手法について検討する。
論文 参考訳(メタデータ) (2021-04-04T07:09:09Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。