Fugu-MT 論文翻訳(概要): NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks

論文の概要: NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks

arxiv url: http://arxiv.org/abs/2204.05660v1
Date: Tue, 12 Apr 2022 09:36:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-13 11:41:40.273749
Title: NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks
Title（参考訳）: NumGLUE: 数学的推論タスクの基本的かつ整合性のあるスイート
Authors: Swaroop Mishra, Arindam Mitra, Neeraj Varshney, Bhavdeep Sachdeva, Peter Clark, Chitta Baral and Ashwin Kalyan
Abstract要約: 8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
参考スコア（独自算出の注目度）: 37.730939229638224
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Given the ubiquitous nature of numbers in text, reasoning with numbers to perform simple calculations is an important skill of AI systems. While many datasets and models have been developed to this end, state-of-the-art AI systems are brittle; failing to perform the underlying mathematical reasoning when they appear in a slightly different scenario. Drawing inspiration from GLUE that was proposed in the context of natural language understanding, we propose NumGLUE, a multi-task benchmark that evaluates the performance of AI systems on eight different tasks, that at their core require simple arithmetic understanding. We show that this benchmark is far from being solved with neural models including state-of-the-art large-scale language models performing significantly worse than humans (lower by 46.4%). Further, NumGLUE promotes sharing knowledge across tasks, especially those with limited training data as evidenced by the superior performance (average gain of 3.4% on each task) when a model is jointly trained on all the tasks as opposed to task-specific modeling. Finally, we hope that NumGLUE will encourage systems that perform robust and general arithmetic reasoning within language, a first step towards being able to perform more complex mathematical reasoning.
Abstract（参考訳）: テキストにおける数字のユビキタスな性質を考えると、簡単な計算を行うために数字を推論することは、AIシステムにとって重要なスキルである。多くのデータセットやモデルがこの目的のために開発されたが、最先端のAIシステムは不安定であり、わずかに異なるシナリオに現れると、基礎となる数学的推論を実行できない。自然言語理解の文脈で提案されたGLUEからインスピレーションを得て,8つのタスクにおけるAIシステムの性能を評価するマルチタスクベンチマークであるNumGLUEを提案する。我々は、このベンチマークが、最先端の大規模言語モデルを含む神経モデルで解決されるには程遠いことを示している(46.4%低い)。さらに、NumGLUEはタスク間の知識の共有を促進する。特に、タスク固有のモデリングとは対照的に、モデルがすべてのタスクに対して共同でトレーニングされる場合、優れたパフォーマンス(各タスクにおける平均3.4%のゲイン)によって証明される限られたトレーニングデータを持つ。最後に、NumGLUEは、より複雑な数学的推論を行うための第一歩として、言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。

関連論文リスト

AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent [80.83250816918861]
o3やDeepSeek-R1のようなLarge Reasoning Models (LRM)は、長いチェーン・オブ・シークレットを持つ自然言語推論において顕著な進歩を遂げている。しかし、計算的に非効率であり、複雑な数学的操作を必要とする問題を解く際には精度に苦しむ。本稿では,言語モデルの推論能力とコードインタプリタの計算精度をシームレスに統合するエージェントフレームワークであるAgentMathを紹介する。
論文参考訳（メタデータ） (2025-12-23T19:57:49Z)
Exposing Numeracy Gaps: A Benchmark to Evaluate Fundamental Numerical Abilities in Large Language Models [19.47343987998194]
大規模言語モデル(LLM)は、自然言語処理タスクにおける印象的な機能を示している。基本算術、数値、等級数比較などの数値推論タスクにおけるそれらの性能は、驚くほど貧弱なままである。既存のベンチマークは主に言語能力や構造化された数学的問題解決に焦点を当てている。
論文参考訳（メタデータ） (2025-02-16T10:48:28Z)
Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges [0.0]
GSM-Rangesは、数学問題における数値を体系的に摂動させ、様々な数値スケールでモデルロバスト性を評価するデータセットジェネレータである。また,論理的誤りと非論理的誤りを区別し,推論過程を計算精度以上の精度で評価する手法を提案する。
論文参考訳（メタデータ） (2025-02-12T09:53:10Z)
MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。 GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文参考訳（メタデータ） (2023-10-03T17:57:24Z)
FERMAT: An Alternative to Accuracy for Numerical Reasoning [11.893004722079557]
数値推論は、既存のデータセットの単一スコアを用いて測定される。我々は、FERMATと呼ばれる、英語の数値推論のための多視点評価セットを導入する。 FerMATは、数理解、数学的操作、訓練依存など、様々な重要な数値推論の側面でモデルを評価する。
論文参考訳（メタデータ） (2023-05-27T15:00:45Z)
Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。 LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文参考訳（メタデータ） (2022-10-31T17:41:26Z)
Reflection of Thought: Inversely Eliciting Numerical Reasoning in Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文参考訳（メタデータ） (2022-10-11T00:57:19Z)
A Minimalist Dataset for Systematic Generalization of Perception, Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。 HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文参考訳（メタデータ） (2021-03-02T01:32:54Z)
SMART: A Situation Model for Algebra Story Problems via Attributed Grammar [74.1315776256292]
本稿では, 問題解決における人間の精神状態を表現する心理学研究から生まれた, emphsituation modelの概念を紹介する。提案モデルでは,より優れた解釈性を保ちながら,従来のすべてのニューラルソルバを大きなマージンで上回る結果が得られた。
論文参考訳（メタデータ） (2020-12-27T21:03:40Z)
Machine Number Sense: A Dataset of Visual Arithmetic Problems for Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。これらの視覚的算術問題は幾何学的フィギュアの形をしている。我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文参考訳（メタデータ） (2020-04-25T17:14:58Z)
Injecting Numerical Reasoning Skills into Language Models [41.78745615537762]
数値推論のような高いレベルの推論スキルは、言語モデリングの目的のみから学ぶことが難しい。数値推論が自動データ生成に有効であることを示し、この技術を予め訓練されたLMに注入できることを示す。我々は、我々のモデルであるGenBERTがDROP(49.3$rightarrow$ 72.3 F1)の性能を劇的に改善し、同等の大きさの最先端モデルに匹敵する性能に達することを示す。
論文参考訳（メタデータ） (2020-04-09T11:14:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。