論文の概要: World Models for Math Story Problems
- arxiv url: http://arxiv.org/abs/2306.04347v1
- Date: Wed, 7 Jun 2023 11:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 14:49:57.099257
- Title: World Models for Math Story Problems
- Title(参考訳): 数学ストーリー問題のための世界モデル
- Authors: Andreas Opedal, Niklas Stoehr, Abulhair Saparov, Mrinmaya Sachan
- Abstract要約: 我々は,数学のストーリー問題領域に特有なグラフベースのセマンティックフォーマリズムであるMathWorldを開発した。
既存のいくつかのデータセットから得られた数学のストーリー問題と1019個の問題と3,204個の論理形式からなるコーパスを、MathWorldと組み合わせる。
- 参考スコア(独自算出の注目度): 16.484130504502193
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Solving math story problems is a complex task for students and NLP models
alike, requiring them to understand the world as described in the story and
reason over it to compute an answer. Recent years have seen impressive
performance on automatically solving these problems with large pre-trained
language models and innovative techniques to prompt them. However, it remains
unclear if these models possess accurate representations of mathematical
concepts. This leads to lack of interpretability and trustworthiness which
impedes their usefulness in various applications. In this paper, we consolidate
previous work on categorizing and representing math story problems and develop
MathWorld, which is a graph-based semantic formalism specific for the domain of
math story problems. With MathWorld, we can assign world models to math story
problems which represent the situations and actions introduced in the text and
their mathematical relationships. We combine math story problems from several
existing datasets and annotate a corpus of 1,019 problems and 3,204 logical
forms with MathWorld. Using this data, we demonstrate the following use cases
of MathWorld: (1) prompting language models with synthetically generated
question-answer pairs to probe their reasoning and world modeling abilities,
and (2) generating new problems by using the world models as a design space.
- Abstract(参考訳): 数学のストーリー問題を解決することは、学生やNLPモデルにとっても複雑なタスクであり、ストーリーに記述された世界を理解し、その上で答えを計算する必要がある。
近年、これらの問題を大規模な事前訓練された言語モデルと、それらを促進する革新的な技術で自動的に解決する性能が目覚ましい。
しかし、これらのモデルが数学的概念の正確な表現を持っているかどうかは不明である。
これにより解釈性と信頼性が欠如し、様々な用途で有用性が損なわれる。
本稿では,数学ストーリー問題の分類と表現に関するこれまでの研究を整理し,数学ストーリー問題領域に特有のグラフに基づく意味形式であるmathworldを開発した。
mathworldでは、テキストに導入された状況と行動とその数学的関係を表す数学ストーリー問題に世界モデルを割り当てることができる。
既存のデータセットからの算数ストーリー問題と、1,019問題と3,204の論理形式からなるコーパスをmathworldにアノテートする。
このデータを用いて,(1)合成された質問・回答ペアを用いた言語モデルによる推論と世界モデリング能力の探究,(2)世界モデルをデザイン空間として用いることで新たな問題の発生,という算術世界のユースケースを実証する。
関連論文リスト
- FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI [2.0608396919601493]
FrontierMath(フロンティアマス、フロンティアマス、FrontierMath)は、数学者が考案し検証した何百もの数学問題のベンチマークである。
現在の最先端のAIモデルは、問題の2%未満を解決し、AI能力と数学的コミュニティの長所との間に大きなギャップが浮かび上がっている。
AIシステムが専門家レベルの数学的能力に向かって進むにつれ、FrontierMathは彼らの進歩を定量化する厳格なテストベッドを提供する。
論文 参考訳(メタデータ) (2024-11-07T17:07:35Z) - Mathfish: Evaluating Language Model Math Reasoning via Grounding in Educational Curricula [25.549869705051606]
我々は,言語モデル(LM)の数学的能力が,数学コンテンツによって実現されるスキルや概念を識別できるかどうかを検討する。
本研究では,算数問題を評価するためのLMの能力を評価するための2つのタスクを開発する。
LMは、問題に関連する標準をタグ付けして検証し、代わりに、真実に近いが微妙な方法で異なるラベルを予測するのに苦労している。
論文 参考訳(メタデータ) (2024-08-08T05:28:34Z) - Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。
LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。
この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文 参考訳(メタデータ) (2024-04-19T08:45:42Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - Towards a Holistic Understanding of Mathematical Questions with
Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。
まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。
そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T14:23:29Z) - Solving Quantitative Reasoning Problems with Language Models [53.53969870599973]
我々は、一般的な自然言語データに基づいて事前訓練された大規模言語モデルであるMinervaを紹介し、さらに技術的な内容について訓練する。
このモデルは、外部ツールを使わずに、技術的ベンチマークで最先端のパフォーマンスを達成する。
我々はまた、物理学、生物学、化学、経済学、その他の科学における200以上の学部レベルの問題に対して、我々のモデルを評価した。
論文 参考訳(メタデータ) (2022-06-29T18:54:49Z) - Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。
各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。
また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文 参考訳(メタデータ) (2021-03-05T18:59:39Z) - SMART: A Situation Model for Algebra Story Problems via Attributed
Grammar [74.1315776256292]
本稿では, 問題解決における人間の精神状態を表現する心理学研究から生まれた, emphsituation modelの概念を紹介する。
提案モデルでは,より優れた解釈性を保ちながら,従来のすべてのニューラルソルバを大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2020-12-27T21:03:40Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。