Fugu-MT 論文翻訳(概要): TheoremQA: A Theorem-driven Question Answering dataset

論文の概要: TheoremQA: A Theorem-driven Question Answering dataset

arxiv url: http://arxiv.org/abs/2305.12524v2
Date: Tue, 23 May 2023 22:35:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 11:12:56.374286
Title: TheoremQA: A Theorem-driven Question Answering dataset
Title（参考訳）: TheoremQA: Theorem-driven Question Answering データセット
Authors: Wenhu Chen, Ming Yin, Max Ku, Pan Lu, Yixin Wan, Xueguang Ma, Jianyu Xu, Xinyi Wang, Tony Xia
Abstract要約: GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。 TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
参考スコア（独自算出の注目度）: 57.379960742975776
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent LLMs like GPT-4 and PaLM-2 have made tremendous progress in solving fundamental math problems like GSM8K by achieving over 90% accuracy. However, their capabilities to solve more challenging math problems which require domain-specific knowledge (i.e. theorem) have yet to be investigated. In this paper, we introduce TheoremQA, the first theorem-driven question-answering dataset designed to evaluate AI models' capabilities to apply theorems to solve challenging science problems. TheoremQA is curated by domain experts containing 800 high-quality questions covering 350 theorems (e.g. Taylor's theorem, Lagrange's theorem, Huffman coding, Quantum Theorem, Elasticity Theorem, etc) from Math, Physics, EE&CS, and Finance. We evaluate a wide spectrum of 16 large language and code models with different prompting strategies like Chain-of-Thoughts and Program-of-Thoughts. We found that GPT-4's capabilities to solve these problems are unparalleled, achieving an accuracy of 51% with Program-of-Thoughts Prompting. All the existing open-sourced models are below 15%, barely surpassing the random-guess baseline. Given the diversity and broad coverage of TheoremQA, we believe it can be used as a better benchmark to evaluate LLMs' capabilities to solve challenging science problems. The data and code are released in https://github.com/wenhuchen/TheoremQA.
Abstract（参考訳）: GPT-4 や PaLM-2 のような最近の LLM は GSM8K のような基本的な数学の問題を90%以上の精度で解くことで大きな進歩を遂げた。しかし、ドメイン固有の知識(すなわち定理)を必要とするより困難な数学問題を解く能力はまだ調査されていない。本稿では,AIモデルの能力を評価するために設計された,最初の定理駆動型質問応答データセットであるTheoremQAを紹介する。 TheoremQAは、数学、物理学、EE&CS、ファイナンスから350の定理(テイラーの定理、ラグランジュの定理、ハフマンの符号化、量子定理、弾性定理など)を含む800の高品質の質問を含む領域の専門家によって計算される。我々は、Chain-of-ThoughtsやProgram-of-Thoughtsなど、さまざまなプロンプト戦略を持つ16の大規模言語とコードモデルの範囲を評価した。 GPT-4では,これらの問題を解決する能力は非並列であり,Program-of-Thoughts Promptingでは51%の精度を実現している。既存のオープンソースモデルはすべて15%以下で、ランダムゲーミングベースラインをわずかに上回っている。 TheoremQAの多様性と広範な範囲を考えると、科学上の課題を解決するためのLSMの能力を評価するためのより良いベンチマークとして使用できると信じている。データとコードはhttps://github.com/wenhuchen/theoremqaでリリースされる。

関連論文リスト

PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文参考訳（メタデータ） (2025-03-04T06:32:30Z)
UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts [7.856746367263317]
本稿では,大規模言語モデルの評価を目的とした頑健な評価フレームワークであるUTMath Benchmarkを紹介する。これは9つの数学領域にまたがる1053個の最先端問題を含み、平均68個のテストケースがある。最高の性能モデルであるo1-miniはわずか32.57%の問題を解き、o1-previewは27.16%、GPT-4oは26.93%であった。
論文参考訳（メタデータ） (2024-11-11T18:59:02Z)
MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。 MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文参考訳（メタデータ） (2024-05-20T17:52:29Z)
ATG: Benchmarking Automated Theorem Generation for Generative Language Models [83.93978859348313]
人間はより広範に複雑な数学的結果を探求するために新しい定理を開発することができる。現在の生成言語モデル(LM)は、定理の自動証明において著しく改善されている。本稿では,エージェントが価値ある(あるいは新しい)定理を自動生成できるかどうかを評価する自動定理生成ベンチマークを提案する。
論文参考訳（メタデータ） (2024-05-05T02:06:37Z)
Can LLMs Master Math? Investigating Large Language Models on Math Stack Exchange [25.419977967846144]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な機能を示した。本稿では、複雑な数学的問題解決をナビゲートする上でのLLMの限界について考察する。
論文参考訳（メタデータ） (2024-03-30T12:48:31Z)
MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。しかし、数学的な問題を解く能力は依然として不十分である。高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文参考訳（メタデータ） (2024-03-05T11:42:59Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
REFACTOR: Learning to Extract Theorems from Proofs [29.44286369265644]
我々は、REFACTORが、人間が証明を書くのに使用する定理の19.6%を抽出できることを示した。新たに抽出された定理により,既存のMetaMathデータベースが構築可能であることを示す。また、新理論データセットでトレーニングされた証明者が、より多くのテスト定理を証明し、最先端のベースラインを上回ることを実証する。
論文参考訳（メタデータ） (2024-02-26T21:21:30Z)
Learning to Prove Theorems by Learning to Generate Theorems [71.46963489866596]
我々は、定理証明器を訓練するために、定理と証明を自動的に合成するニューラルジェネレータを学習する。実世界の課題に関する実験は、我々の手法による合成データが定理証明器を改善することを示した。
論文参考訳（メタデータ） (2020-02-17T16:06:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。