論文の概要: Conic10K: A Challenging Math Problem Understanding and Reasoning Dataset
- arxiv url: http://arxiv.org/abs/2311.05113v1
- Date: Thu, 9 Nov 2023 02:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 16:20:32.026453
- Title: Conic10K: A Challenging Math Problem Understanding and Reasoning Dataset
- Title(参考訳): Conic10K: 数学問題理解と推論データセット
- Authors: Haoyi Wu, Wenyang Hui, Yezeng Chen, Weiqi Wu, Kewei Tu, Yi Zhou
- Abstract要約: 本研究では,中国の高等学校における円錐部分の数学問題データセットであるConic10Kを提案する。
我々のデータセットは、様々な推論深度を持つ様々な問題を含むが、円錐部分からの知識は必要である。
各問題に対して、高品質な形式表現、推論ステップ、最終解を提供する。
- 参考スコア(独自算出の注目度): 38.99073257782012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mathematical understanding and reasoning are crucial tasks for assessing the
capabilities of artificial intelligence (AI). However, existing benchmarks
either require just a few steps of reasoning, or only contain a small amount of
data in one specific topic, making it hard to analyse AI's behaviour with
reference to different problems within a specific topic in detail. In this
work, we propose Conic10K, a challenging math problem dataset on conic sections
in Chinese senior high school education. Our dataset contains various problems
with different reasoning depths, while only the knowledge from conic sections
is required. Since the dataset only involves a narrow range of knowledge, it is
easy to separately analyse the knowledge a model possesses and the reasoning
ability it has. For each problem, we provide a high-quality formal
representation, the reasoning steps, and the final solution. Experiments show
that existing large language models, including GPT-4, exhibit weak performance
on complex reasoning. We hope that our findings could inspire more advanced
techniques for precise natural language understanding and reasoning. Our
dataset and codes are available at https://github.com/whyNLP/Conic10K.
- Abstract(参考訳): 数学的理解と推論は、人工知能(AI)の能力を評価する上で重要なタスクである。
しかし、既存のベンチマークでは、推論のほんの数ステップを必要とするか、特定のトピックに少量のデータしか含まないため、特定のトピック内のさまざまな問題を参照してAIの振る舞いを分析するのは難しい。
そこで本研究では,中国の高等学校におけるconicセクションにおける計算問題データセットconic10kを提案する。
我々のデータセットは、様々な推論深度を持つ様々な問題を含むが、円錐部分からの知識は必要である。
データセットは限られた範囲の知識しか含まないため、モデルが持つ知識と推論能力とを別々に分析することは容易である。
各問題に対して、私たちは高品質な形式表現、推論ステップ、最終的なソリューションを提供します。
GPT-4を含む既存の大規模言語モデルは複雑な推論において弱い性能を示す。
私たちの発見が、より高度な自然言語理解と推論のテクニックを刺激することを期待しています。
データセットとコードはhttps://github.com/whyNLP/Conic10Kで公開されています。
関連論文リスト
- MathCAMPS: Fine-grained Synthesis of Mathematical Problems From Human Curricula [33.5782208232163]
本研究では,高品質な数学問題を大規模に合成する手法であるMath CAMPSを提案する。
それぞれの標準を形式文法でエンコードし、様々な記号問題とその解をサンプリングする。
我々は、記号構造からフォローアップ質問を導き、それらをフォローアップ単語問題に変換する。
論文 参考訳(メタデータ) (2024-07-01T01:56:28Z) - CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities [25.857946070979576]
概念とHint-Annotated Math Problems (CHAMP) は、概念に注釈を付けた高校数学の競争問題である。
このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。
モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
論文 参考訳(メタデータ) (2024-01-13T03:18:16Z) - GeomVerse: A Systematic Evaluation of Large Models for Geometric
Reasoning [17.61621287003562]
幾何学問題のレンズを用いて視覚言語モデル(VLM)を様々な軸に沿って評価する。
複数の軸に沿った制御可能な難易度を持つ幾何学的質問の合成データセットを手続き的に作成する。
最新のVLMのベンチマークを用いて得られた実験結果から,これらのモデルが幾何学的対象に適さないことが示された。
論文 参考訳(メタデータ) (2023-12-19T15:25:39Z) - Towards a Holistic Understanding of Mathematical Questions with
Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。
まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。
そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T14:23:29Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - LogiQA: A Challenge Dataset for Machine Reading Comprehension with
Logical Reasoning [20.81312285957089]
私たちは、人間の論理的推論をテストするための専門家による質問から得られた、LogiQAという名前の包括的なデータセットを構築します。
その結果、最先端のニューラルモデルでは、人間の天井よりもはるかにパフォーマンスが悪いことが判明した。
我々のデータセットは、ディープラーニングNLP設定下で論理AIを再調査するためのベンチマークとしても機能する。
論文 参考訳(メタデータ) (2020-07-16T05:52:16Z) - PuzzLing Machines: A Challenge on Learning From Small Data [64.513459448362]
我々は,高校生を対象としたLinguistic OlympiadsのRosetta StoneパズルからなるPuzzLing Machinesという,小さなデータから学ぶための課題を紹介した。
私たちのチャレンジには、81言語から幅広い言語現象をカバーする約100のパズルが含まれています。
単純な統計アルゴリズムと最先端のディープニューラルモデルの両方が、予想通り、この課題に対して不十分に実行可能であることを示す。
論文 参考訳(メタデータ) (2020-04-27T20:34:26Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。