論文の概要: Measuring and Improving BERT's Mathematical Abilities by Predicting the
Order of Reasoning
- arxiv url: http://arxiv.org/abs/2106.03921v1
- Date: Mon, 7 Jun 2021 19:08:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 12:21:08.307335
- Title: Measuring and Improving BERT's Mathematical Abilities by Predicting the
Order of Reasoning
- Title(参考訳): 推論順序の予測によるBERTの数学的能力の測定と改善
- Authors: Piotr Pi\k{e}kos, Henryk Michalewski, Mateusz Malinowski
- Abstract要約: 一般に使われている言語モデルであるBERTは、そのような数学的能力を持ち、もしそうであれば、どの程度の程度で調べる。
我々は、単語数問題のための一般的なデータセットであるAQuA-RATでBERTを微調整し、学習された表現をよりよく理解するためにいくつかのテストを実行する。
我々は、自然言語で訓練されたモデルにフォーマルな数学を教えるので、そのようなモデルは、数学結果の導出方法を説明する半形式的なステップのトレーニングの恩恵を受けるだろうと仮定する。
- 参考スコア(独自算出の注目度): 12.716258111815312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imagine you are in a supermarket. You have two bananas in your basket and
want to buy four apples. How many fruits do you have in total? This seemingly
straightforward question can be challenging for data-driven language models,
even if trained at scale. However, we would expect such generic language models
to possess some mathematical abilities in addition to typical linguistic
competence. Towards this goal, we investigate if a commonly used language
model, BERT, possesses such mathematical abilities and, if so, to what degree.
For that, we fine-tune BERT on a popular dataset for word math problems,
AQuA-RAT, and conduct several tests to understand learned representations
better. Since we teach models trained on natural language to do formal
mathematics, we hypothesize that such models would benefit from training on
semi-formal steps that explain how math results are derived. To better
accommodate such training, we also propose new pretext tasks for learning
mathematical rules. We call them (Neighbor) Reasoning Order Prediction (ROP or
NROP). With this new model, we achieve significantly better outcomes than
data-driven baselines and even on-par with more tailored models. We also show
how to reduce positional bias in such models.
- Abstract(参考訳): あなたがスーパーマーケットにいることを想像してください。
バスケットにバナナが2つ入っており、リンゴを4つ買いたい。
果物は全部でいくつありますか。
この一見単純な質問は、たとえ大規模にトレーニングされたとしても、データ駆動型言語モデルでは難しい。
しかし、そのような汎用言語モデルは、典型的な言語能力に加えて、いくつかの数学的能力を持つものと期待する。
この目的に向けて、一般的な言語モデルであるBERTは、そのような数学的能力を持ち、もしそうであれば、どの程度の程度で調べる。
そのため、単語数学問題のための一般的なデータセットであるAQuA-RATでBERTを微調整し、学習した表現をよりよく理解するためのいくつかのテストを実行する。
我々は、自然言語で訓練されたモデルに形式的数学を教えるので、そのようなモデルが数学の結果の導出を説明する半形式的ステップの訓練の恩恵を受けると仮定する。
また,これらの学習をよりよく適応するために,数理規則を学ぶための新しい前文タスクを提案する。
我々はそれらを(近隣)推論順序予測(ROPまたはNROP)と呼ぶ。
この新しいモデルでは、データ駆動のベースラインや、よりカスタマイズされたモデルと同等の結果を得ることができます。
また,このようなモデルにおける位置バイアスの低減方法を示す。
関連論文リスト
- Brain-Inspired Two-Stage Approach: Enhancing Mathematical Reasoning by
Imitating Human Thought Processes [6.512667145063511]
本稿では,人間の思考過程を模倣し,数学的推論能力を高める新しい手法であるBrainを提案する。
まず,コードLLaMA 7Bをベースとしたモデルと比較し,SOTAの性能を評価する。
第二に、計画が自然言語、コード、形式言語から明示的に抽出できることが分かる。
論文 参考訳(メタデータ) (2024-02-23T17:40:31Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable
Reasoning [99.8200914526817]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - Large Language Models for Mathematicians [58.196955111156676]
大規模言語モデル(LLM)は、汎用言語理解、特に高品質なテキストやコンピュータコードを生成する能力に多大な関心を集めている。
本稿では,プロの数学者をどの程度支援できるかについて論じる。
論文 参考訳(メタデータ) (2023-12-07T18:59:29Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language
Models [94.71699322751327]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models
via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。
GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z) - Pretrained Language Models are Symbolic Mathematics Solvers too! [1.9240537487954366]
変圧器のような大規模言語モデルは普遍的であり、複雑な方程式を解くためのシーケンス・ツー・シーケンス・タスクとして訓練することができる。
本稿では,まず言語翻訳による変圧器モデルの事前学習を行い,次に事前学習した変圧器モデルの微調整を行い,記号数学の下流課題を解決することで,記号処理の効率的な解法を提案する。
論文 参考訳(メタデータ) (2021-10-07T14:37:06Z) - Numerical reasoning in machine reading comprehension tasks: are we there
yet? [79.07883990966077]
数値推論に基づく機械読解は、加算、減算、ソート、数え上げなどの算術演算を併用して、理解を読み取るタスクである。
DROPベンチマークは、この課題を解決することを目的としたNLPモデルの設計にインスピレーションを与えた最近のデータセットである。
DROPリーダーボードにおけるこれらのモデルの現在の立場は、標準メトリクスよりも、モデルがほぼ人間に近いパフォーマンスを達成したことを示唆している。
論文 参考訳(メタデータ) (2021-09-16T20:13:56Z) - A Mathematical Exploration of Why Language Models Help Solve Downstream
Tasks [35.046596668631615]
単語予測のために大きなテキストコーパスを用いて事前訓練された自動回帰言語モデルは、多くの下流タスクの解決に成功している。
本稿では,テキスト分類の下流課題に対する,この現象の数学的研究を開始する。
論文 参考訳(メタデータ) (2020-10-07T20:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。