論文の概要: Arithmetic-Based Pretraining -- Improving Numeracy of Pretrained
Language Models
- arxiv url: http://arxiv.org/abs/2205.06733v2
- Date: Fri, 9 Jun 2023 08:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 18:34:15.492272
- Title: Arithmetic-Based Pretraining -- Improving Numeracy of Pretrained
Language Models
- Title(参考訳): 算術に基づく事前学習-事前学習言語モデルの数理化
- Authors: Dominic Petrak, Nafise Sadat Moosavi, Iryna Gurevych
- Abstract要約: 最先端の事前訓練された言語モデルは、数式を必要とするタスクにアウト・オブ・ボックスを適用すると、その能力より劣る傾向にある。
本稿では,Arithmetic-Based Pretrainingと呼ばれる拡張事前学習手法を提案する。
本実験は,算数性の向上を必要とする3つのタスクにおいて,算術的事前学習の有効性を示す。
- 参考スコア(独自算出の注目度): 67.48894919842576
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: State-of-the-art pretrained language models tend to perform below their
capabilities when applied out-of-the-box on tasks that require understanding
and working with numbers. Recent work suggests two main reasons for this: (1)
popular tokenisation algorithms have limited expressiveness for numbers, and
(2) common pretraining objectives do not target numeracy. Approaches that
address these shortcomings usually require architectural changes or pretraining
from scratch. In this paper, we propose a new extended pretraining approach
called Arithmetic-Based Pretraining that jointly addresses both in one extended
pretraining step without requiring architectural changes or pretraining from
scratch. Arithmetic-Based Pretraining combines contrastive learning to improve
the number representation, and a novel extended pretraining objective called
Inferable Number Prediction Task to improve numeracy. Our experiments show the
effectiveness of Arithmetic-Based Pretraining in three different tasks that
require improved numeracy, i.e., reading comprehension in the DROP dataset,
inference-on-tables in the InfoTabs dataset, and table-to-text generation in
the WikiBio and SciGen datasets.
- Abstract(参考訳): 最先端の事前学習された言語モデルは、数字の理解と処理を必要とするタスクにアウト・オブ・ボックスを適用すると能力以下になる傾向がある。
最近の研究は、2つの主な理由を示唆している: (1) 一般的なトークン化アルゴリズムは数値の表現力に制限があり、(2) 共通の事前学習対象は数値を対象としない。
これらの欠点に対処するアプローチは通常、アーキテクチャの変更や、ゼロから事前訓練が必要です。
本稿では,設計上の変更やスクラッチからの事前トレーニングを必要とせず,一つの拡張事前学習ステップで共同で対処する,算術ベースプリトレーニングと呼ばれる新しい拡張プリトレーニング手法を提案する。
算術に基づく事前学習は、対照的な学習と、数値表現を改善するために推論可能数予測タスクと呼ばれる新しい事前学習目標を組み合わせる。
実験では,DROPデータセットの理解,InfoTabsデータセットの推論・オン・テーブル,WikiBioデータセットとSciGenデータセットのテーブル・ツー・テキスト生成の3つのタスクにおいて,算術的事前学習の有効性を示す。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Reuse, Don't Retrain: A Recipe for Continued Pretraining of Language Models [29.367678364485794]
本稿では,言語モデルの事前学習を継続する上で,効率的なデータ分布と学習率スケジュールを設計する方法を示す。
プレトレーニングセットにおける継続トレーニングのベースラインと比較すると,平均モデル精度は9%向上した。
論文 参考訳(メタデータ) (2024-07-09T22:37:59Z) - Unified Pretraining for Recommendation via Task Hypergraphs [55.98773629788986]
本稿では,タスクハイパーグラフによる推薦のための統一事前学習という,新しいマルチタスク事前学習フレームワークを提案する。
多様なプレテキストタスクの要求やニュアンスを処理するための統一学習パターンとして,プレテキストタスクをハイパーエッジ予測に一般化するタスクハイパーグラフを設計する。
各プレテキストタスクとレコメンデーションの関連性を識別的に学習するために、新しいトランジショナルアテンション層が考案される。
論文 参考訳(メタデータ) (2023-10-20T05:33:21Z) - Teaching Arithmetic to Small Transformers [39.72665384986095]
本研究では,小形変圧器が算術演算を効率的に学習する方法について検討する。
まず,従来の学習データが算術学習に最も効果的でないことを示す。
次に、中間ステップの結果を含むチェーン・オブ・シンクスタイルのデータをトレーニングします。
論文 参考訳(メタデータ) (2023-07-07T04:33:31Z) - SDCUP: Schema Dependency-Enhanced Curriculum Pre-Training for Table
Semantic Parsing [19.779493883522072]
本稿では,テーブル事前学習のための学習表現に所望の帰納バイアスを課すために,2つの新しい事前学習目標を設計する。
本稿では,雑音の影響を緩和し,事前学習データから容易にハードな方法で効果的に学習する,スキーマ対応のカリキュラム学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-18T02:51:04Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。