論文の概要: EncT5: Fine-tuning T5 Encoder for Non-autoregressive Tasks
- arxiv url: http://arxiv.org/abs/2110.08426v1
- Date: Sat, 16 Oct 2021 00:50:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 19:29:21.438115
- Title: EncT5: Fine-tuning T5 Encoder for Non-autoregressive Tasks
- Title(参考訳): EncT5:非自己回帰タスクのための微調整T5エンコーダ
- Authors: Frederick Liu, Siamak Shakeri, Hongkun Yu, Jing Li
- Abstract要約: 我々は、T5のような微調整済みのエンコーダデコーダモデルについて検討する。
実験の結果, T5 のパラメータの半分未満の textbfEncT5 は GLUE ベンチマークの T5 モデルと同様の性能を示した。
- 参考スコア(独自算出の注目度): 9.141586109808895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Encoder-decoder transformer architectures have become popular recently with
the advent of T5 models. It is also more favorable over architectures like BERT
for pre-training on language model task when it comes to large scale models
which could take months to train given it's generality. While being able to
generalize to more tasks, it is not evident if the proposed encoder-decoder
architecture is the most efficient for fine-tuning on classification and
regression tasks given the pre-trained model. In this work, we study
fine-tuning pre-trained encoder-decoder models such as T5. Particularly, we
propose \textbf{EncT5} as a way to efficiently fine-tune pre-trained
encoder-decoder T5 models for classification and regression tasks by using the
encoder layers. Our experimental results show that \textbf{EncT5} with less
than half of the parameters of T5 performs similarly to T5 models on GLUE
benchmark. We believe our proposed approach can be easily applied to any
pre-trained encoder-decoder model.
- Abstract(参考訳): エンコーダ-デコーダトランスフォーマーアーキテクチャは、t5モデルの登場で最近普及している。
また、言語モデルタスクの事前トレーニングにおいてBERTのようなアーキテクチャよりも、汎用性からトレーニングに数ヶ月を要するような大規模なモデルの方が好ましい。
より多くのタスクに一般化することができるが、事前訓練されたモデルによる分類と回帰タスクの微調整に提案されているエンコーダ-デコーダアーキテクチャが最も効率的かどうかは明らかではない。
本研究では,t5などのプリトレーニングエンコーダ・デコーダモデルについて検討する。
特に,事前に訓練したエンコーダ・デコーダT5モデルを,エンコーダ層を用いて効率的に微調整する手法として, \textbf{EncT5}を提案する。
実験の結果, T5 のパラメータの半分未満の \textbf{EncT5} は GLUE ベンチマークの T5 モデルと同様の性能を示すことがわかった。
提案手法は,事前学習したエンコーダデコーダモデルにも容易に適用できると考えている。
関連論文リスト
- Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。
より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-29T15:07:21Z) - SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced
Token Detection [49.43407207482008]
SpacTorは、スパン汚職(SC)とトークン置換検出(RTD)を組み合わせたハイブリッド目標からなる新しいトレーニング手順である。
各種NLPタスクにおけるエンコーダ・デコーダアーキテクチャ(T5)による実験では、SpacTor-T5は標準のSCプリトレーニングと同じダウンストリーム性能が得られる。
論文 参考訳(メタデータ) (2024-01-24T00:36:13Z) - UT5: Pretraining Non autoregressive T5 with unrolled denoising [9.656399724144192]
自動回帰型T5モデルの教師なし事前訓練について,非学習型聴覚障害者を用いて検討した。
我々は,SQuAD質問生成やXSumなどの下流生成タスクにおいて,そのSoTA結果を示した。
論文 参考訳(メタデータ) (2023-11-14T21:28:10Z) - nanoT5: A PyTorch Framework for Pre-training and Fine-tuning T5-style
Models with Limited Resources [1.9813574408340644]
我々はT5モデルの効率的な事前学習と微調整のためのフレームワークであるNanoT5を提案する。
NanoT5では、T5-Baseモデルをたった16時間で1つのGPU上で事前トレーニングすることが可能で、パフォーマンスが損なわれることはない。
コントリビューション、洞察、事前トレーニングされたモデルなど、私たちのコントリビューションは、一般向けに公開しています。
論文 参考訳(メタデータ) (2023-09-05T16:35:41Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - LongT5: Efficient Text-To-Text Transformer for Long Sequences [8.743996838160825]
我々はLongT5と呼ばれる新しいモデルを提案し、入力長とモデルサイズの両方を同時にスケーリングする効果について検討する。
いくつかの要約タスクでは最先端の結果が得られ、質問応答タスクでは元のT5モデルよりも優れています。
論文 参考訳(メタデータ) (2021-12-15T06:35:29Z) - Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。
モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。
再設計したモデルにより、下流の微調整品質が向上する。
論文 参考訳(メタデータ) (2021-09-22T12:29:15Z) - Primer: Searching for Efficient Transformers for Language Modeling [79.2677566332444]
大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。
ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。
私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
論文 参考訳(メタデータ) (2021-09-17T17:50:39Z) - Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text
Models [10.645591218689058]
テキスト・トゥ・テキスト・トランスフォーマー (T5) 文の埋め込みを初めて行う。
本稿では,T5文の埋め込みを抽出する3つの方法について検討する。
エンコーダのみのモデルは、転送タスクとセマンティックテキストの類似性の両方においてBERTベースの文埋め込みよりも優れています。
論文 参考訳(メタデータ) (2021-08-19T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。