Fugu-MT 論文翻訳(概要): Injecting Numerical Reasoning Skills into Language Models

論文の概要: Injecting Numerical Reasoning Skills into Language Models

arxiv url: http://arxiv.org/abs/2004.04487v1
Date: Thu, 9 Apr 2020 11:14:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-15 02:56:29.376673
Title: Injecting Numerical Reasoning Skills into Language Models
Title（参考訳）: 言語モデルへの数値推論スキルの注入
Authors: Mor Geva, Ankit Gupta, Jonathan Berant
Abstract要約: 数値推論のような高いレベルの推論スキルは、言語モデリングの目的のみから学ぶことが難しい。数値推論が自動データ生成に有効であることを示し、この技術を予め訓練されたLMに注入できることを示す。我々は、我々のモデルであるGenBERTがDROP(49.3$rightarrow$ 72.3 F1)の性能を劇的に改善し、同等の大きさの最先端モデルに匹敵する性能に達することを示す。
参考スコア（独自算出の注目度）: 41.78745615537762
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large pre-trained language models (LMs) are known to encode substantial amounts of linguistic information. However, high-level reasoning skills, such as numerical reasoning, are difficult to learn from a language-modeling objective only. Consequently, existing models for numerical reasoning have used specialized architectures with limited flexibility. In this work, we show that numerical reasoning is amenable to automatic data generation, and thus one can inject this skill into pre-trained LMs, by generating large amounts of data, and training in a multi-task setup. We show that pre-training our model, GenBERT, on this data, dramatically improves performance on DROP (49.3 $\rightarrow$ 72.3 F1), reaching performance that matches state-of-the-art models of comparable size, while using a simple and general-purpose encoder-decoder architecture. Moreover, GenBERT generalizes well to math word problem datasets, while maintaining high performance on standard RC tasks. Our approach provides a general recipe for injecting skills into large pre-trained LMs, whenever the skill is amenable to automatic data augmentation.
Abstract（参考訳）: 大規模な事前訓練言語モデル(LM)は、かなりの量の言語情報を符号化することが知られている。しかし、数値推論のような高度な推論スキルは、言語モデリングの目的のみから学ぶことは困難である。したがって、数値推論のための既存のモデルは柔軟性に乏しい特殊なアーキテクチャを用いている。本研究は, 数値推論が自動データ生成に有効であることを示し, 大量のデータを生成し, マルチタスクでトレーニングすることで, 予め訓練したLMにこの技術を注入できることを示す。当社のモデルであるgenbertをこのデータで事前トレーニングすることで、ドロップ時のパフォーマンスが劇的に向上する(49.3$\rightarrow$ 72.3 f1)ことを示し、シンプルで汎用的なエンコーダ-デコーダアーキテクチャを使用して、同等サイズの最先端モデルに匹敵するパフォーマンスを実現しています。さらに、GenBERTは、標準的なRCタスクで高いパフォーマンスを維持しながら、数学語問題データセットを一般化する。提案手法は,自動データ拡張に適応可能なスキルを,事前学習した大規模lmsに注入するための一般的なレシピを提供する。

関連論文リスト

Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models [12.424072830053445]
本研究では,非英語言語における目標課題に対するLLM(Large Language Models)の微調整の難しさに対処するモデルマージ手法を提案する。我々は、英語の数学の命令データと対象言語の汎用的な命令データに「専門家」を微調整する。我々は、数学の専門家の上位と下位のトランスフォーマー層を直接言語専門家の層に置き換え、それによって対象言語の数学性能が向上する。
論文参考訳（メタデータ） (2024-10-02T08:53:07Z)
Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文参考訳（メタデータ） (2024-10-01T04:20:14Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文参考訳（メタデータ） (2022-04-12T14:19:49Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文参考訳（メタデータ） (2021-10-15T17:08:57Z)
Turning Tables: Generating Examples from Semi-structured Tables for Endowing Language Models with Reasoning Skills [32.55545292360155]
本稿では,半構造化テーブルを活用し,大規模質問とパラグラフのペアを自動的に生成する手法を提案する。 16種類の推論スキルを必要とする例を含む、この合成データに対する事前学習のステップを追加します。我々のモデルであるPReasMは、トレーニング済みエンコーダ-デコーダモデルであるT5を大幅に上回っていることを示す。
論文参考訳（メタデータ） (2021-07-15T11:37:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。