論文の概要: nanoT5: A PyTorch Framework for Pre-training and Fine-tuning T5-style
Models with Limited Resources
- arxiv url: http://arxiv.org/abs/2309.02373v2
- Date: Tue, 24 Oct 2023 14:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 23:43:04.251065
- Title: nanoT5: A PyTorch Framework for Pre-training and Fine-tuning T5-style
Models with Limited Resources
- Title(参考訳): NanoT5: リソース制限付き事前トレーニングおよび微調整T5スタイルモデルのためのPyTorchフレームワーク
- Authors: Piotr Nawrot
- Abstract要約: 我々はT5モデルの効率的な事前学習と微調整のためのフレームワークであるNanoT5を提案する。
NanoT5では、T5-Baseモデルをたった16時間で1つのGPU上で事前トレーニングすることが可能で、パフォーマンスが損なわれることはない。
コントリビューション、洞察、事前トレーニングされたモデルなど、私たちのコントリビューションは、一般向けに公開しています。
- 参考スコア(独自算出の注目度): 1.9813574408340644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art language models like T5 have revolutionized the NLP
landscape, but their computational demands hinder a large portion of the
research community. To address this challenge, we present nanoT5, a
specially-optimized PyTorch framework for efficient pre-training and
fine-tuning of T5 models. Drawing on insights from optimizer differences and
prioritizing efficiency, nanoT5 allows a T5-Base model to be pre-trained on a
single GPU in just 16 hours, without any loss in performance. With the
introduction of this open-source framework, we hope to widen the accessibility
to language modelling research and cater to the community's demand for more
user-friendly T5 (Encoder-Decoder) implementations. We make our contributions,
including configurations, codebase, pre-training insights, and pre-trained
models, available to the public.
- Abstract(参考訳): T5のような最先端の言語モデルはNLPのランドスケープに革命をもたらしたが、その計算要求は研究コミュニティの大部分を妨げている。
この課題に対処するため、T5モデルの事前学習と微調整を効率的に行うために特別に最適化されたPyTorchフレームワークであるnanoT5を提案する。
nanot5はオプティマイザの違いと優先順位付け効率から得られた洞察に基づいて、t5ベースのモデルをたった16時間で1つのgpuで事前トレーニングすることができる。
このオープンソースフレームワークの導入により、言語モデリングの研究へのアクセシビリティを拡大し、よりユーザフレンドリーなT5(Encoder-Decoder)実装に対するコミュニティの要求に応えたいと思っています。
コンフィギュレーションやコードベース、事前トレーニングされた洞察、事前トレーニングされたモデルなど、私たちのコントリビューションを一般公開しています。
関連論文リスト
- UT5: Pretraining Non autoregressive T5 with unrolled denoising [9.656399724144192]
自動回帰型T5モデルの教師なし事前訓練について,非学習型聴覚障害者を用いて検討した。
我々は,SQuAD質問生成やXSumなどの下流生成タスクにおいて,そのSoTA結果を示した。
論文 参考訳(メタデータ) (2023-11-14T21:28:10Z) - Model-Generated Pretraining Signals Improves Zero-Shot Generalization of
Text-to-Text Transformers [98.30298332661323]
本稿では,T5などのテキスト変換器のゼロショット一般化におけるモデル生成信号の有効性について検討する。
我々は新しいモデルMETRO-T0を開発し、ELECTRA-Style事前学習戦略を用いて事前訓練を行い、次にNLPタスクの混合を即時微調整する。
その結果,METRO-T0の有効性は,パラメータのよりバランスの取れた寄与と,それらの能力の有効利用に起因していることが判明した。
論文 参考訳(メタデータ) (2023-05-21T21:06:23Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - EncT5: Fine-tuning T5 Encoder for Non-autoregressive Tasks [9.141586109808895]
我々は、T5のような微調整済みのエンコーダデコーダモデルについて検討する。
実験の結果, T5 のパラメータの半分未満の textbfEncT5 は GLUE ベンチマークの T5 モデルと同様の性能を示した。
論文 参考訳(メタデータ) (2021-10-16T00:50:08Z) - Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。
モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。
再設計したモデルにより、下流の微調整品質が向上する。
論文 参考訳(メタデータ) (2021-09-22T12:29:15Z) - NT5?! Training T5 to Perform Numerical Reasoning [0.8827543048499855]
テキスト上の数値推論(NRoT)は、既存の事前学習目標ではうまく対処できないユニークな課題を提示します。
T5マルチタスクフレームワークを複数の数値推論データセットでトレーニングすることで、手動で分割機能を設計することなく、難易度を高めることができることを示した。
論文 参考訳(メタデータ) (2021-04-15T08:34:44Z) - Switch Transformers: Scaling to Trillion Parameter Models with Simple
and Efficient Sparsity [35.84448624327473]
MoEルーティングアルゴリズムを簡略化し、通信コストと計算コストを削減して直感的に改善されたモデルを設計する。
我々は、初めて低精度(bfloat16)フォーマットで、大きなスパースモデルを訓練できることを示した。
我々は,t5-base と t5-large に基づいてモデルを設計し,同じ計算資源で事前学習速度を最大7倍向上させる。
論文 参考訳(メタデータ) (2021-01-11T16:11:52Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。