論文の概要: CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs'
Mathematical Reasoning Capabilities
- arxiv url: http://arxiv.org/abs/2401.06961v1
- Date: Sat, 13 Jan 2024 03:18:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 20:32:20.894922
- Title: CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs'
Mathematical Reasoning Capabilities
- Title(参考訳): CHAMP:LLMの数学的推論能力の微粒化分析のための競合レベルデータセット
- Authors: Yujun Mao, Yoon Kim, Yilun Zhou
- Abstract要約: 概念とHint-Annotated Math Problems (CHAMP) は、高校数学の競争問題である。
このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。
モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
- 参考スコア(独自算出の注目度): 29.06174003306662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLMs) have shown indications of mathematical
reasoning ability. However it has not been clear how they would fare on more
challenging competition-level problems. And while self-generated verbalizations
of intermediate reasoning steps (i.e., chain-of-thought prompting) have been
shown to be helpful, whether LLMs can make use of helpful side information such
as problem-specific hints has not been investigated before. In this paper, we
propose a challenging benchmark dataset for enabling such analyses. The Concept
and Hint-Annotated Math Problems (CHAMP) consists of high school math
competition problems, annotated with concepts, or general math facts, and
hints, or problem-specific tricks. These annotations allow us to explore the
effects of additional information, such as relevant hints, misleading concepts,
or related problems. This benchmark is difficult, with the best model only
scoring 58.1% in standard settings. With concepts and hints, performance
sometimes improves, indicating that some models can make use of such side
information. We further annotate model-generated solutions for their
correctness. Using this corpus, we find that models often arrive at the correct
final answer through wrong reasoning steps. In addition, we test whether models
are able to verify these solutions, and find that most models struggle. The
dataset and code are available on the project website.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)は、数学的推論能力を示す。
しかし、彼らがより困難な競争レベルの問題にどう対処するかは明らかではない。
また,中間的推論ステップ(チェーン・オブ・マインド・プロンプト)の自己生成型言語化が有効であることが示されているが,llmが問題特定ヒントなどの有用なサイド情報を利用できるかどうかについては,これまで検討されていない。
本稿では,このような解析を可能にするための挑戦的なベンチマークデータセットを提案する。
概念とヒント数学問題(英: Concept and Hint-Annotated Math Problems、CHAMP)は、概念や一般的な数学の事実、ヒント、問題固有のトリックを含む、高校数学の競争問題である。
これらのアノテーションにより、関連するヒントや誤解を招く概念、関連する問題など、追加情報の影響を探求することができます。
このベンチマークは困難であり、最良のモデルは標準設定で58.1%しか得点しない。
概念とヒントによって、パフォーマンスは時として改善され、一部のモデルはそのようなサイド情報を利用することができる。
さらに、モデル生成ソリューションの正しさについてアノテートする。
このコーパスを用いて、間違った推論ステップを通じて、モデルが正しい最終回答に達することがよくあります。
さらに、モデルがこれらのソリューションを検証できるかどうかをテストし、ほとんどのモデルが苦労していることを確認します。
データセットとコードはプロジェクトのwebサイトから入手できる。
関連論文リスト
- GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [88.72298746872396]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。
5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。
我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文 参考訳(メタデータ) (2024-02-14T05:57:58Z) - GeomVerse: A Systematic Evaluation of Large Models for Geometric
Reasoning [17.61621287003562]
幾何学問題のレンズを用いて視覚言語モデル(VLM)を様々な軸に沿って評価する。
複数の軸に沿った制御可能な難易度を持つ幾何学的質問の合成データセットを手続き的に作成する。
最新のVLMのベンチマークを用いて得られた実験結果から,これらのモデルが幾何学的対象に適さないことが示された。
論文 参考訳(メタデータ) (2023-12-19T15:25:39Z) - Conic10K: A Challenging Math Problem Understanding and Reasoning Dataset [38.99073257782012]
本研究では,中国の高等学校における円錐部分の数学問題データセットであるConic10Kを提案する。
我々のデータセットは、様々な推論深度を持つ様々な問題を含むが、円錐部分からの知識は必要である。
各問題に対して、高品質な形式表現、推論ステップ、最終解を提供する。
論文 参考訳(メタデータ) (2023-11-09T02:58:17Z) - Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。
高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。
さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文 参考訳(メタデータ) (2023-05-24T11:55:59Z) - Large Language Models Can Be Easily Distracted by Irrelevant Context [29.315230178997002]
本研究では,モデル解の精度が無関係な文脈によってどのように影響されるかを検討する。
我々は,大規模言語モデルにおける最先端のプロンプト手法の散らかしやすさをベンチマークで測定する。
論文 参考訳(メタデータ) (2023-01-31T20:48:57Z) - Towards a Holistic Understanding of Mathematical Questions with
Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。
まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。
そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T14:23:29Z) - Why Machine Reading Comprehension Models Learn Shortcuts? [56.629192589376046]
トレーニングデータにおけるショートカットの質問の大部分が、モデルが過度にショートカットのトリックに依存している、と私たちは主張する。
徹底的な実証分析により、MRCモデルは挑戦的な質問よりも早くショートカットの質問を学習する傾向が示されている。
論文 参考訳(メタデータ) (2021-06-02T08:43:12Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - SMART: A Situation Model for Algebra Story Problems via Attributed
Grammar [74.1315776256292]
本稿では, 問題解決における人間の精神状態を表現する心理学研究から生まれた, emphsituation modelの概念を紹介する。
提案モデルでは,より優れた解釈性を保ちながら,従来のすべてのニューラルソルバを大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2020-12-27T21:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。