論文の概要: Pretrained Language Models are Symbolic Mathematics Solvers too!
- arxiv url: http://arxiv.org/abs/2110.03501v1
- Date: Thu, 7 Oct 2021 14:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 22:35:47.044296
- Title: Pretrained Language Models are Symbolic Mathematics Solvers too!
- Title(参考訳): 事前学習された言語モデルも記号的数学解法です!
- Authors: Kimia Noorbakhsh, Modar Sulaiman, Mahdi Sharifi, Kallol Roy, Pooyan
Jamshidi
- Abstract要約: 変圧器のような大規模言語モデルは普遍的であり、複雑な方程式を解くためのシーケンス・ツー・シーケンス・タスクとして訓練することができる。
本稿では,まず言語翻訳による変圧器モデルの事前学習を行い,次に事前学習した変圧器モデルの微調整を行い,記号数学の下流課題を解決することで,記号処理の効率的な解法を提案する。
- 参考スコア(独自算出の注目度): 1.9240537487954366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solving symbolic mathematics has always been of in the arena of human
ingenuity that needs compositional reasoning and recurrence. However, recent
studies have shown that large-scale language models such as transformers are
universal and surprisingly can be trained as a sequence-to-sequence task to
solve complex mathematical equations. These large transformer models need
humongous amounts of training data to generalize to unseen symbolic mathematics
problems. In this paper, we present a sample efficient way of solving the
symbolic tasks by first pretraining the transformer model with language
translation and then fine-tuning the pretrained transformer model to solve the
downstream task of symbolic mathematics. We achieve comparable accuracy on the
integration task with our pretrained model while using around $1.5$ orders of
magnitude less number of training samples with respect to the state-of-the-art
deep learning for symbolic mathematics. The test accuracy on differential
equation tasks is considerably lower comparing with integration as they need
higher order recursions that are not present in language translations. We
pretrain our model with different pairs of language translations. Our results
show language bias in solving symbolic mathematics tasks. Finally, we study the
robustness of the fine-tuned model on symbolic math tasks against distribution
shift, and our approach generalizes better in distribution shift scenarios for
the function integration.
- Abstract(参考訳): 象徴的数学の解法は常に、構成的推論と再帰を必要とする人間の創造性の場にある。
しかし、近年の研究では、トランスフォーマーのような大規模言語モデルは普遍的であり、驚くほど複雑な数学的方程式を解くためにシーケンスからシーケンスへのタスクとして訓練できることが示されている。
これらの大きなトランスフォーマーモデルは、記号的な数学の問題に一般化するために、膨大な量のトレーニングデータを必要とする。
本稿では,まず言語翻訳によるトランスフォーマーモデルを事前学習し,その後に事前学習したトランスフォーマーモデルを微調整し,記号数学の下流課題を解決することにより,記号的タスクを効率的に解決するサンプルを提案する。
記号数学の最先端深層学習に関して、約1.5ドルのトレーニングサンプルを桁違いに少ない数で使用しながら、事前訓練されたモデルとの統合タスクにおいて同等の精度を達成する。
微分方程式のタスクにおけるテストの精度は、言語翻訳に存在しない高次再帰を必要とするため、積分と比較してかなり低い。
我々は、異なる言語翻訳でモデルを事前訓練する。
本結果は,記号数学の課題を解く際の言語バイアスを示す。
最後に,分布シフトに対する記号的数学タスクの微調整モデルのロバスト性について検討し,関数積分における分布シフトのシナリオを一般化する。
関連論文リスト
- Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models [12.424072830053445]
本研究では,非英語言語における目標課題に対するLLM(Large Language Models)の微調整の難しさに対処するモデルマージ手法を提案する。
我々は、英語の数学の命令データと対象言語の汎用的な命令データに「専門家」を微調整する。
我々は、数学の専門家の上位と下位のトランスフォーマー層を直接言語専門家の層に置き換え、それによって対象言語の数学性能が向上する。
論文 参考訳(メタデータ) (2024-10-02T08:53:07Z) - A Hybrid System for Systematic Generalization in Simple Arithmetic
Problems [70.91780996370326]
本稿では,記号列に対する合成的および体系的推論を必要とする算術的問題を解くことができるハイブリッドシステムを提案する。
提案システムは,最も単純なケースを含むサブセットでのみ訓練された場合においても,ネストした数式を正確に解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-29T18:35:41Z) - Learning to Reason With Relational Abstractions [65.89553417442049]
関係抽象化の考え方を用いて,言語モデルにおいてより強力な推論能力を構築する方法について検討する。
このようなシーケンスをプロンプトとして提供したモデルでは,タスクの精度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-06T00:27:50Z) - Heterogeneous Line Graph Transformer for Math Word Problems [21.4761673982334]
本稿では,オンライン学習システムのための新しい機械学習モデルの設計と実装について述べる。
我々は,自動算術語問題解決システムの実現により,システムの知能レベルを向上することを目指している。
論文 参考訳(メタデータ) (2022-08-11T05:27:05Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z) - Tackling Math Word Problems with Fine-to-Coarse Abstracting and
Reasoning [22.127301797950572]
本稿では,局所的なきめ細かい情報と,その大域的な論理構造の両方を捉えるために,微粒な方法で数学語問題をモデル化することを提案する。
我々のモデルは局所的な変動に自然に敏感であり、目に見えない問題タイプにより良い一般化が可能である。
論文 参考訳(メタデータ) (2022-05-17T12:14:44Z) - Recognizing and Verifying Mathematical Equations using Multiplicative
Differential Neural Units [86.9207811656179]
メモリ拡張ニューラルネットワーク(NN)は、高次、メモリ拡張外挿、安定した性能、より高速な収束を実現することができることを示す。
本モデルでは,現在の手法と比較して1.53%の精度向上を達成し,2.22%のtop-1平均精度と2.96%のtop-5平均精度を達成している。
論文 参考訳(メタデータ) (2021-04-07T03:50:11Z) - Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。
各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。
また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文 参考訳(メタデータ) (2021-03-05T18:59:39Z) - SMART: A Situation Model for Algebra Story Problems via Attributed
Grammar [74.1315776256292]
本稿では, 問題解決における人間の精神状態を表現する心理学研究から生まれた, emphsituation modelの概念を紹介する。
提案モデルでは,より優れた解釈性を保ちながら,従来のすべてのニューラルソルバを大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2020-12-27T21:03:40Z) - A Mathematical Exploration of Why Language Models Help Solve Downstream
Tasks [35.046596668631615]
単語予測のために大きなテキストコーパスを用いて事前訓練された自動回帰言語モデルは、多くの下流タスクの解決に成功している。
本稿では,テキスト分類の下流課題に対する,この現象の数学的研究を開始する。
論文 参考訳(メタデータ) (2020-10-07T20:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。