論文の概要: Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models
- arxiv url: http://arxiv.org/abs/2305.15074v1
- Date: Wed, 24 May 2023 11:55:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:05:36.637193
- Title: Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models
- Title(参考訳): LLMは十分に進歩したか?
大規模言語モデルのベンチマークを解く問題
- Authors: Daman Arora, Himanshu Gaurav Singh, Mausam
- Abstract要約: 大規模言語モデル(LLM)の問題解決能力を評価するための挑戦的ベンチマークデータセットを提案する。
IIT-Advanced 試験から,450の難解な数学,物理,化学の問題を評価した。
GPTシリーズの評価では、新しいモデルでは性能が向上するが、最高性能はGPT-4であり、自己整合性やChain-of-Thoughtなどの手法を用いても40%未満であることがわかった。
- 参考スコア(独自算出の注目度): 13.98051751713916
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The performance on Large Language Models (LLMs) on existing reasoning
benchmarks has shot up considerably over the past years. In response, we
present JEEBench, a considerably more challenging benchmark dataset for
evaluating the problem solving abilities of LLMs. We curate 450 challenging
pre-engineering mathematics, physics and chemistry problems from the IIT
JEE-Advanced exam. Long-horizon reasoning on top of deep in-domain knowledge is
essential for solving problems in this benchmark. Our evaluation on the GPT
series of models reveals that although performance improves with newer models,
the best being GPT-4, the highest performance, even after using techniques like
Self-Consistency and Chain-of-Thought prompting is less than 40 percent. Our
analysis demonstrates that errors in algebraic manipulation and failure in
retrieving relevant domain specific concepts are primary contributors to GPT4's
low performance. Given the challenging nature of the benchmark, we hope that it
can guide future research in problem solving using LLMs. Our code and dataset
is available here.
- Abstract(参考訳): 既存の推論ベンチマークにおけるLLM(Large Language Models)のパフォーマンスは、ここ数年で大幅に向上した。
これに対して我々は,LLMの問題解決能力を評価する上で,かなり難しいベンチマークデータセットであるJEEBenchを提案する。
我々は, IIT JEE-Advanced 試験から, 数学, 物理, 化学の課題を450点評価した。
このベンチマークで問題を解くには、ドメイン内知識の深層に基づくロングホリゾン推論が不可欠です。
GPTシリーズの評価では、新しいモデルでは性能が向上するが、最高性能はGPT-4であり、自己整合性やChain-of-Thoughtなどの手法を用いても40%未満であることがわかった。
本分析は,GPT4の低性能に対する主要な寄与要因として,代数的操作の誤りと関連ドメイン固有概念の検索の失敗が示されている。
ベンチマークの難易度を考えると、LSMを用いた問題解決における今後の研究をガイドできることを願っている。
コードとデータセットはここにある。
関連論文リスト
- HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。
本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。
HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文 参考訳(メタデータ) (2024-10-13T20:09:41Z) - BEATS: Optimizing LLM Mathematical Capabilities with BackVerify and Adaptive Disambiguate based Efficient Tree Search [22.672130194493793]
大規模言語モデル(LLM)は、幅広いタスクやドメインで例外的なパフォーマンスを示している。
彼らは数学の厳密で論理的な性質のため、数学の問題を解くのに依然として困難に直面している。
本稿では,数学的問題解決能力を高めるための新しい手法BEATSを提案する。
論文 参考訳(メタデータ) (2024-09-26T15:47:42Z) - We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning? [11.858791083851447]
WE-MATHは、エンド・ツー・エンドのパフォーマンスを超えた問題解決の原則を探求するために設計された最初のベンチマークである。
我々は67の階層的な知識概念と5層の知識の粒度にまたがる6.5Kの視覚数学の問題を慎重に収集・分類する。
視覚数学的推論において既存のLMMを徹底的に評価し、解法ステップと問題固有の性能との負の相関を明らかにする。
論文 参考訳(メタデータ) (2024-07-01T13:39:08Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Can Language Models Solve Olympiad Programming? [40.54366634332231]
本稿ではUSACOベンチマークについて,USA Computing Olympiadの307の問題点について紹介する。
競争型プログラミングのための様々なLM推論手法を初めて構築・テストする。
GPT-4 は 8.7% パス@1 の精度しか達成していない。
論文 参考訳(メタデータ) (2024-04-16T23:27:38Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities [25.857946070979576]
概念とHint-Annotated Math Problems (CHAMP) は、概念に注釈を付けた高校数学の競争問題である。
このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。
モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
論文 参考訳(メタデータ) (2024-01-13T03:18:16Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。