論文の概要: NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning
Tasks
- arxiv url: http://arxiv.org/abs/2204.05660v1
- Date: Tue, 12 Apr 2022 09:36:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 11:41:40.273749
- Title: NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning
Tasks
- Title(参考訳): NumGLUE: 数学的推論タスクの基本的かつ整合性のあるスイート
- Authors: Swaroop Mishra, Arindam Mitra, Neeraj Varshney, Bhavdeep Sachdeva,
Peter Clark, Chitta Baral and Ashwin Kalyan
- Abstract要約: 8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。
このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。
我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
- 参考スコア(独自算出の注目度): 37.730939229638224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the ubiquitous nature of numbers in text, reasoning with numbers to
perform simple calculations is an important skill of AI systems. While many
datasets and models have been developed to this end, state-of-the-art AI
systems are brittle; failing to perform the underlying mathematical reasoning
when they appear in a slightly different scenario. Drawing inspiration from
GLUE that was proposed in the context of natural language understanding, we
propose NumGLUE, a multi-task benchmark that evaluates the performance of AI
systems on eight different tasks, that at their core require simple arithmetic
understanding. We show that this benchmark is far from being solved with neural
models including state-of-the-art large-scale language models performing
significantly worse than humans (lower by 46.4%). Further, NumGLUE promotes
sharing knowledge across tasks, especially those with limited training data as
evidenced by the superior performance (average gain of 3.4% on each task) when
a model is jointly trained on all the tasks as opposed to task-specific
modeling. Finally, we hope that NumGLUE will encourage systems that perform
robust and general arithmetic reasoning within language, a first step towards
being able to perform more complex mathematical reasoning.
- Abstract(参考訳): テキストにおける数字のユビキタスな性質を考えると、簡単な計算を行うために数字を推論することは、AIシステムにとって重要なスキルである。
多くのデータセットやモデルがこの目的のために開発されたが、最先端のAIシステムは不安定であり、わずかに異なるシナリオに現れると、基礎となる数学的推論を実行できない。
自然言語理解の文脈で提案されたGLUEからインスピレーションを得て,8つのタスクにおけるAIシステムの性能を評価するマルチタスクベンチマークであるNumGLUEを提案する。
我々は、このベンチマークが、最先端の大規模言語モデルを含む神経モデルで解決されるには程遠いことを示している(46.4%低い)。
さらに、NumGLUEはタスク間の知識の共有を促進する。特に、タスク固有のモデリングとは対照的に、モデルがすべてのタスクに対して共同でトレーニングされる場合、優れたパフォーマンス(各タスクにおける平均3.4%のゲイン)によって証明される限られたトレーニングデータを持つ。
最後に、NumGLUEは、より複雑な数学的推論を行うための第一歩として、言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
関連論文リスト
- MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z) - FERMAT: An Alternative to Accuracy for Numerical Reasoning [11.893004722079557]
数値推論は、既存のデータセットの単一スコアを用いて測定される。
我々は、FERMATと呼ばれる、英語の数値推論のための多視点評価セットを導入する。
FerMATは、数理解、数学的操作、訓練依存など、様々な重要な数値推論の側面でモデルを評価する。
論文 参考訳(メタデータ) (2023-05-27T15:00:45Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z) - Reflection of Thought: Inversely Eliciting Numerical Reasoning in
Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。
まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。
我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文 参考訳(メタデータ) (2022-10-11T00:57:19Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - SMART: A Situation Model for Algebra Story Problems via Attributed
Grammar [74.1315776256292]
本稿では, 問題解決における人間の精神状態を表現する心理学研究から生まれた, emphsituation modelの概念を紹介する。
提案モデルでは,より優れた解釈性を保ちながら,従来のすべてのニューラルソルバを大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2020-12-27T21:03:40Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z) - Injecting Numerical Reasoning Skills into Language Models [41.78745615537762]
数値推論のような高いレベルの推論スキルは、言語モデリングの目的のみから学ぶことが難しい。
数値推論が自動データ生成に有効であることを示し、この技術を予め訓練されたLMに注入できることを示す。
我々は、我々のモデルであるGenBERTがDROP(49.3$rightarrow$ 72.3 F1)の性能を劇的に改善し、同等の大きさの最先端モデルに匹敵する性能に達することを示す。
論文 参考訳(メタデータ) (2020-04-09T11:14:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。