Fugu-MT 論文翻訳(概要): nanoT5: A PyTorch Framework for Pre-training and Fine-tuning T5-style Models with Limited Resources

論文の概要: nanoT5: A PyTorch Framework for Pre-training and Fine-tuning T5-style Models with Limited Resources

arxiv url: http://arxiv.org/abs/2309.02373v2
Date: Tue, 24 Oct 2023 14:53:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 23:43:04.251065
Title: nanoT5: A PyTorch Framework for Pre-training and Fine-tuning T5-style Models with Limited Resources
Title（参考訳）: NanoT5: リソース制限付き事前トレーニングおよび微調整T5スタイルモデルのためのPyTorchフレームワーク
Authors: Piotr Nawrot
Abstract要約: 我々はT5モデルの効率的な事前学習と微調整のためのフレームワークであるNanoT5を提案する。 NanoT5では、T5-Baseモデルをたった16時間で1つのGPU上で事前トレーニングすることが可能で、パフォーマンスが損なわれることはない。コントリビューション、洞察、事前トレーニングされたモデルなど、私たちのコントリビューションは、一般向けに公開しています。
参考スコア（独自算出の注目度）: 1.9813574408340644
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State-of-the-art language models like T5 have revolutionized the NLP landscape, but their computational demands hinder a large portion of the research community. To address this challenge, we present nanoT5, a specially-optimized PyTorch framework for efficient pre-training and fine-tuning of T5 models. Drawing on insights from optimizer differences and prioritizing efficiency, nanoT5 allows a T5-Base model to be pre-trained on a single GPU in just 16 hours, without any loss in performance. With the introduction of this open-source framework, we hope to widen the accessibility to language modelling research and cater to the community's demand for more user-friendly T5 (Encoder-Decoder) implementations. We make our contributions, including configurations, codebase, pre-training insights, and pre-trained models, available to the public.
Abstract（参考訳）: T5のような最先端の言語モデルはNLPのランドスケープに革命をもたらしたが、その計算要求は研究コミュニティの大部分を妨げている。この課題に対処するため、T5モデルの事前学習と微調整を効率的に行うために特別に最適化されたPyTorchフレームワークであるnanoT5を提案する。 nanot5はオプティマイザの違いと優先順位付け効率から得られた洞察に基づいて、t5ベースのモデルをたった16時間で1つのgpuで事前トレーニングすることができる。このオープンソースフレームワークの導入により、言語モデリングの研究へのアクセシビリティを拡大し、よりユーザフレンドリーなT5(Encoder-Decoder)実装に対するコミュニティの要求に応えたいと思っています。コンフィギュレーションやコードベース、事前トレーニングされた洞察、事前トレーニングされたモデルなど、私たちのコントリビューションを一般公開しています。

関連論文リスト

NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals [58.83169560132308]
NNsightとNDIFを導入し、非常に大きなニューラルネットワークによって学習された表現と計算の科学的研究を可能にする。
論文参考訳（メタデータ） (2024-07-18T17:59:01Z)
UT5: Pretraining Non autoregressive T5 with unrolled denoising [9.656399724144192]
自動回帰型T5モデルの教師なし事前訓練について,非学習型聴覚障害者を用いて検討した。我々は,SQuAD質問生成やXSumなどの下流生成タスクにおいて,そのSoTA結果を示した。
論文参考訳（メタデータ） (2023-11-14T21:28:10Z)
Model-Generated Pretraining Signals Improves Zero-Shot Generalization of Text-to-Text Transformers [98.30298332661323]
本稿では,T5などのテキスト変換器のゼロショット一般化におけるモデル生成信号の有効性について検討する。我々は新しいモデルMETRO-T0を開発し、ELECTRA-Style事前学習戦略を用いて事前訓練を行い、次にNLPタスクの混合を即時微調整する。その結果,METRO-T0の有効性は,パラメータのよりバランスの取れた寄与と,それらの能力の有効利用に起因していることが判明した。
論文参考訳（メタデータ） (2023-05-21T21:06:23Z)
Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。 KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文参考訳（メタデータ） (2022-05-18T09:17:14Z)
Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文参考訳（メタデータ） (2022-05-10T19:32:20Z)
DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文参考訳（メタデータ） (2021-10-30T03:29:47Z)
EncT5: Fine-tuning T5 Encoder for Non-autoregressive Tasks [9.141586109808895]
我々は、T5のような微調整済みのエンコーダデコーダモデルについて検討する。実験の結果, T5 のパラメータの半分未満の textbfEncT5 は GLUE ベンチマークの T5 モデルと同様の性能を示した。
論文参考訳（メタデータ） (2021-10-16T00:50:08Z)
Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。再設計したモデルにより、下流の微調整品質が向上する。
論文参考訳（メタデータ） (2021-09-22T12:29:15Z)
NT5?! Training T5 to Perform Numerical Reasoning [0.8827543048499855]
テキスト上の数値推論(NRoT)は、既存の事前学習目標ではうまく対処できないユニークな課題を提示します。 T5マルチタスクフレームワークを複数の数値推論データセットでトレーニングすることで、手動で分割機能を設計することなく、難易度を高めることができることを示した。
論文参考訳（メタデータ） (2021-04-15T08:34:44Z)
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity [35.84448624327473]
MoEルーティングアルゴリズムを簡略化し、通信コストと計算コストを削減して直感的に改善されたモデルを設計する。我々は、初めて低精度(bfloat16)フォーマットで、大きなスパースモデルを訓練できることを示した。我々は,t5-base と t5-large に基づいてモデルを設計し,同じ計算資源で事前学習速度を最大7倍向上させる。
論文参考訳（メタデータ） (2021-01-11T16:11:52Z)
mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。 101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文参考訳（メタデータ） (2020-10-22T17:58:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。