論文の概要: Injecting Numerical Reasoning Skills into Language Models
- arxiv url: http://arxiv.org/abs/2004.04487v1
- Date: Thu, 9 Apr 2020 11:14:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 02:56:29.376673
- Title: Injecting Numerical Reasoning Skills into Language Models
- Title(参考訳): 言語モデルへの数値推論スキルの注入
- Authors: Mor Geva, Ankit Gupta, Jonathan Berant
- Abstract要約: 数値推論のような高いレベルの推論スキルは、言語モデリングの目的のみから学ぶことが難しい。
数値推論が自動データ生成に有効であることを示し、この技術を予め訓練されたLMに注入できることを示す。
我々は、我々のモデルであるGenBERTがDROP(49.3$rightarrow$ 72.3 F1)の性能を劇的に改善し、同等の大きさの最先端モデルに匹敵する性能に達することを示す。
- 参考スコア(独自算出の注目度): 41.78745615537762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained language models (LMs) are known to encode substantial
amounts of linguistic information. However, high-level reasoning skills, such
as numerical reasoning, are difficult to learn from a language-modeling
objective only. Consequently, existing models for numerical reasoning have used
specialized architectures with limited flexibility. In this work, we show that
numerical reasoning is amenable to automatic data generation, and thus one can
inject this skill into pre-trained LMs, by generating large amounts of data,
and training in a multi-task setup. We show that pre-training our model,
GenBERT, on this data, dramatically improves performance on DROP (49.3
$\rightarrow$ 72.3 F1), reaching performance that matches state-of-the-art
models of comparable size, while using a simple and general-purpose
encoder-decoder architecture. Moreover, GenBERT generalizes well to math word
problem datasets, while maintaining high performance on standard RC tasks. Our
approach provides a general recipe for injecting skills into large pre-trained
LMs, whenever the skill is amenable to automatic data augmentation.
- Abstract(参考訳): 大規模な事前訓練言語モデル(LM)は、かなりの量の言語情報を符号化することが知られている。
しかし、数値推論のような高度な推論スキルは、言語モデリングの目的のみから学ぶことは困難である。
したがって、数値推論のための既存のモデルは柔軟性に乏しい特殊なアーキテクチャを用いている。
本研究は, 数値推論が自動データ生成に有効であることを示し, 大量のデータを生成し, マルチタスクでトレーニングすることで, 予め訓練したLMにこの技術を注入できることを示す。
当社のモデルであるgenbertをこのデータで事前トレーニングすることで、ドロップ時のパフォーマンスが劇的に向上する(49.3$\rightarrow$ 72.3 f1)ことを示し、シンプルで汎用的なエンコーダ-デコーダアーキテクチャを使用して、同等サイズの最先端モデルに匹敵するパフォーマンスを実現しています。
さらに、GenBERTは、標準的なRCタスクで高いパフォーマンスを維持しながら、数学語問題データセットを一般化する。
提案手法は,自動データ拡張に適応可能なスキルを,事前学習した大規模lmsに注入するための一般的なレシピを提供する。
関連論文リスト
- DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価する
このモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文 参考訳(メタデータ) (2024-03-29T22:59:34Z) - The Truth is in There: Improving Reasoning in Language Models with
Layer-Selective Rank Reduction [22.659005954676598]
重み行列の高次成分を選択的に除去することにより,大規模言語モデルの性能を大幅に向上させることができることを示す。
LAER(Layer-Selective Rank reduction)と呼ばれるこの単純な介入は、トレーニングが完了した後、モデル上で行うことができる。
言語モデルとデータセットにまたがって、この発見の汎用性を実証する広範な実験を示す。
論文 参考訳(メタデータ) (2023-12-21T03:51:08Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - Turning Tables: Generating Examples from Semi-structured Tables for
Endowing Language Models with Reasoning Skills [32.55545292360155]
本稿では,半構造化テーブルを活用し,大規模質問とパラグラフのペアを自動的に生成する手法を提案する。
16種類の推論スキルを必要とする例を含む、この合成データに対する事前学習のステップを追加します。
我々のモデルであるPReasMは、トレーニング済みエンコーダ-デコーダモデルであるT5を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-15T11:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。