論文の概要: NT5?! Training T5 to Perform Numerical Reasoning
- arxiv url: http://arxiv.org/abs/2104.07307v1
- Date: Thu, 15 Apr 2021 08:34:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 15:02:54.305403
- Title: NT5?! Training T5 to Perform Numerical Reasoning
- Title(参考訳): NT5!
数値推論のためのT5訓練
- Authors: Peng-Jian Yang, Ying Ting Chen, Yuechan Chen, Daniel Cer
- Abstract要約: テキスト上の数値推論(NRoT)は、既存の事前学習目標ではうまく対処できないユニークな課題を提示します。
T5マルチタスクフレームワークを複数の数値推論データセットでトレーニングすることで、手動で分割機能を設計することなく、難易度を高めることができることを示した。
- 参考スコア(独自算出の注目度): 0.8827543048499855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerical reasoning over text (NRoT) presents unique challenges that are not
well addressed by existing pre-training objectives. We explore five sequential
training schedules that adapt a pre-trained T5 model for NRoT. Our final model
is adapted from T5, but further pre-trained on three datasets designed to
strengthen skills necessary for NRoT and general reading comprehension before
being fine-tuned on the Discrete Reasoning over Text (DROP) dataset. The
training improves DROP's adjusted F1 performance (a numeracy-focused score)
from 45.90 to 70.83. Our model closes in on GenBERT (72.4), a custom BERT-Base
model using the same datasets with significantly more parameters. We show that
training the T5 multitasking framework with multiple numerical reasoning
datasets of increasing difficulty, good performance on DROP can be achieved
without manually engineering partitioned functionality between distributed and
symbol modules.
- Abstract(参考訳): テキスト上での数値推論(NRoT)は、既存の事前学習目標にうまく対応していないユニークな課題を示す。
NRoTのための訓練済みT5モデルを適応させる5つの連続訓練スケジュールを探索する。
最終モデルは T5 から適応するが,NRoT と一般読解に必要なスキルを強化するために設計された 3 つのデータセットを事前訓練した上で,DROP (Disdisrete Reasoning over Text) データセットを微調整する。
このトレーニングはDROPの調整されたF1パフォーマンス(数字中心のスコア)を45.90から70.83に改善する。
私たちのモデルは、同じデータセットを使用して、パラメータがかなり多いカスタムbertベースモデルであるgenbert(72.4)を閉じています。
我々は,分散モジュールとシンボルモジュール間の分割機能を手動で設計することなく,DROPの性能向上を図りながら,複数の数値推論データセットによるT5マルチタスクフレームワークのトレーニングを行うことを示す。
関連論文リスト
- The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - nanoT5: A PyTorch Framework for Pre-training and Fine-tuning T5-style
Models with Limited Resources [1.9813574408340644]
我々はT5モデルの効率的な事前学習と微調整のためのフレームワークであるNanoT5を提案する。
NanoT5では、T5-Baseモデルをたった16時間で1つのGPU上で事前トレーニングすることが可能で、パフォーマンスが損なわれることはない。
コントリビューション、洞察、事前トレーニングされたモデルなど、私たちのコントリビューションは、一般向けに公開しています。
論文 参考訳(メタデータ) (2023-09-05T16:35:41Z) - Model-Generated Pretraining Signals Improves Zero-Shot Generalization of
Text-to-Text Transformers [98.30298332661323]
本稿では,T5などのテキスト変換器のゼロショット一般化におけるモデル生成信号の有効性について検討する。
我々は新しいモデルMETRO-T0を開発し、ELECTRA-Style事前学習戦略を用いて事前訓練を行い、次にNLPタスクの混合を即時微調整する。
その結果,METRO-T0の有効性は,パラメータのよりバランスの取れた寄与と,それらの能力の有効利用に起因していることが判明した。
論文 参考訳(メタデータ) (2023-05-21T21:06:23Z) - Instruction Tuned Models are Quick Learners [20.771930945083994]
そこで本研究では,各種タスクにおける指導調律モデルのサンプル効率について述べる。
STL設定では、下流列車データの25%を備えた指導調律モデルが下流タスクのSOTA性能を上回っている。
MTL設定では、下流のトレーニングデータの6%しか訓練されていない指導調律モデルがSOTAを達成する一方で、100%のトレーニングデータを使用することで3.69%の改善が達成される。
論文 参考訳(メタデータ) (2023-05-17T22:30:01Z) - Text Embeddings by Weakly-Supervised Contrastive Pre-training [98.31785569325402]
E5は最先端のテキスト埋め込みのファミリーであり、幅広いタスクにうまく転送される。
E5は、テキストの単一ベクトル表現を必要とするタスクに対して、汎用的な埋め込みモデルとして簡単に使用できる。
論文 参考訳(メタデータ) (2022-12-07T09:25:54Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Investigating Numeracy Learning Ability of a Text-to-Text Transfer Model [18.922352061424302]
本稿では,テキストからテキストへの移動学習モデル(T5)の数値学習能力について検討する。
数値化、等級予測、列内の最小値と最大値の探索、ソートという4つの数値処理について検討する。
T5モデルは適度に性能が良いが、4つのタスクすべてにわたる外挿設定ではかなり苦労している。
論文 参考訳(メタデータ) (2021-09-10T05:33:17Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - Text-to-Text Pre-Training for Data-to-Text Tasks [9.690158790639131]
データ・トゥ・テキスト・タスクのための事前訓練+微調整戦略について検討する。
実験により,テキストからテキストへの事前学習により,単純なエンドツーエンドのトランスフォーマーモデルが実現できることが示唆された。
論文 参考訳(メタデータ) (2020-05-21T02:46:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。