論文の概要: Improving the Numerical Reasoning Skills of Pretrained Language Models
- arxiv url: http://arxiv.org/abs/2205.06733v1
- Date: Fri, 13 May 2022 16:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-16 13:02:40.300996
- Title: Improving the Numerical Reasoning Skills of Pretrained Language Models
- Title(参考訳): 事前学習言語モデルの数値推論能力の向上
- Authors: Dominic Petrak, Nafise Sadat Moosavi, Iryna Gurevych
- Abstract要約: 最先端の事前訓練言語モデルは、数値推論を必要とするタスクにアウト・オブ・ボックスを適用すると、その能力より劣る傾向にある。
本稿では,両者の欠点に共同で対処するための推論認識事前学習という,新たな事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 67.48894919842576
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: State-of-the-art pretrained language models tend to perform below their
capabilities when applied out-of-the-box on tasks that require reasoning over
numbers. Recent work sees two main reasons for this: (1) popular tokenisation
algorithms are optimized for common words, and therefore have limited
expressiveness for numbers, and (2) common pretraining objectives do not target
numerical reasoning or understanding numbers at all. Recent approaches usually
address them separately and mostly by proposing architectural changes or
pretraining models from scratch. In this paper, we propose a new extended
pretraining approach called reasoning-aware pretraining to jointly address both
shortcomings without requiring architectural changes or pretraining from
scratch. Using contrastive learning, our approach incorporates an alternative
number representation into an already pretrained model, while improving its
numerical reasoning skills by training on a novel pretraining objective called
inferable number prediction task. We evaluate our approach on three different
tasks that require numerical reasoning, including (a) reading comprehension in
the DROP dataset, (b) inference-on-tables in the InfoTabs dataset, and (c)
table-to-text generation in WikiBio and SciGen datasets. Our results on DROP
and InfoTabs show that our approach improves the accuracy by 9.6 and 33.9
points on these datasets, respectively. Our human evaluation on SciGen and
WikiBio shows that our approach improves the factual correctness on all
datasets.
- Abstract(参考訳): 最先端の事前訓練された言語モデルは、数に対する推論を必要とするタスクにアウト・オブ・ボックスを適用すると、その能力より劣る傾向にある。
最近の研究は、(1)一般的なトークン化アルゴリズムが共通語に最適化されているため、数に対する表現性が制限されていること、(2)一般的な事前学習目的が数値推論や理解数字を全く対象としていないこと、の2つの主な理由を指摘している。
最近のアプローチでは、アーキテクチャの変更やモデルをスクラッチから事前トレーニングすることによって、通常はそれらを別々に扱う。
本稿では,アーキテクチャ変更やスクラッチからの事前学習を必要とせずに,両者の欠点を解決するための推論・アウェアプリトレーニングという,新たな拡張プリトレーニング手法を提案する。
コントラスト学習を用いて、すでに訓練済みのモデルに代替数表現を組み込むとともに、推論可能数予測タスクと呼ばれる新しい事前学習目標をトレーニングすることで、数値推論スキルを向上させる。
数値推論を必要とする3つのタスクに対する我々のアプローチを評価する。
(a)ドロップデータセットの理解を読み取ること。
b)InfoTabsデータセットにおける推論オンテーブル、および
(c)WikiBioおよびSciGenデータセットのテーブル・ツー・テキスト生成。
DROPとInfoTabsによる結果から,これらのデータセットの精度は9.6ポイント,33.9ポイント向上した。
scigen と wikibio を用いた人間評価の結果,全データセットの事実的正確性が向上した。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Reuse, Don't Retrain: A Recipe for Continued Pretraining of Language Models [29.367678364485794]
本稿では,言語モデルの事前学習を継続する上で,効率的なデータ分布と学習率スケジュールを設計する方法を示す。
プレトレーニングセットにおける継続トレーニングのベースラインと比較すると,平均モデル精度は9%向上した。
論文 参考訳(メタデータ) (2024-07-09T22:37:59Z) - Unified Pretraining for Recommendation via Task Hypergraphs [55.98773629788986]
本稿では,タスクハイパーグラフによる推薦のための統一事前学習という,新しいマルチタスク事前学習フレームワークを提案する。
多様なプレテキストタスクの要求やニュアンスを処理するための統一学習パターンとして,プレテキストタスクをハイパーエッジ予測に一般化するタスクハイパーグラフを設計する。
各プレテキストタスクとレコメンデーションの関連性を識別的に学習するために、新しいトランジショナルアテンション層が考案される。
論文 参考訳(メタデータ) (2023-10-20T05:33:21Z) - Teaching Arithmetic to Small Transformers [39.72665384986095]
本研究では,小形変圧器が算術演算を効率的に学習する方法について検討する。
まず,従来の学習データが算術学習に最も効果的でないことを示す。
次に、中間ステップの結果を含むチェーン・オブ・シンクスタイルのデータをトレーニングします。
論文 参考訳(メタデータ) (2023-07-07T04:33:31Z) - SDCUP: Schema Dependency-Enhanced Curriculum Pre-Training for Table
Semantic Parsing [19.779493883522072]
本稿では,テーブル事前学習のための学習表現に所望の帰納バイアスを課すために,2つの新しい事前学習目標を設計する。
本稿では,雑音の影響を緩和し,事前学習データから容易にハードな方法で効果的に学習する,スキーマ対応のカリキュラム学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-18T02:51:04Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。