論文の概要: Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models
- arxiv url: http://arxiv.org/abs/2305.15074v1
- Date: Wed, 24 May 2023 11:55:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:05:36.637193
- Title: Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models
- Title(参考訳): LLMは十分に進歩したか?
大規模言語モデルのベンチマークを解く問題
- Authors: Daman Arora, Himanshu Gaurav Singh, Mausam
- Abstract要約: 大規模言語モデル(LLM)の問題解決能力を評価するための挑戦的ベンチマークデータセットを提案する。
IIT-Advanced 試験から,450の難解な数学,物理,化学の問題を評価した。
GPTシリーズの評価では、新しいモデルでは性能が向上するが、最高性能はGPT-4であり、自己整合性やChain-of-Thoughtなどの手法を用いても40%未満であることがわかった。
- 参考スコア(独自算出の注目度): 13.98051751713916
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The performance on Large Language Models (LLMs) on existing reasoning
benchmarks has shot up considerably over the past years. In response, we
present JEEBench, a considerably more challenging benchmark dataset for
evaluating the problem solving abilities of LLMs. We curate 450 challenging
pre-engineering mathematics, physics and chemistry problems from the IIT
JEE-Advanced exam. Long-horizon reasoning on top of deep in-domain knowledge is
essential for solving problems in this benchmark. Our evaluation on the GPT
series of models reveals that although performance improves with newer models,
the best being GPT-4, the highest performance, even after using techniques like
Self-Consistency and Chain-of-Thought prompting is less than 40 percent. Our
analysis demonstrates that errors in algebraic manipulation and failure in
retrieving relevant domain specific concepts are primary contributors to GPT4's
low performance. Given the challenging nature of the benchmark, we hope that it
can guide future research in problem solving using LLMs. Our code and dataset
is available here.
- Abstract(参考訳): 既存の推論ベンチマークにおけるLLM(Large Language Models)のパフォーマンスは、ここ数年で大幅に向上した。
これに対して我々は,LLMの問題解決能力を評価する上で,かなり難しいベンチマークデータセットであるJEEBenchを提案する。
我々は, IIT JEE-Advanced 試験から, 数学, 物理, 化学の課題を450点評価した。
このベンチマークで問題を解くには、ドメイン内知識の深層に基づくロングホリゾン推論が不可欠です。
GPTシリーズの評価では、新しいモデルでは性能が向上するが、最高性能はGPT-4であり、自己整合性やChain-of-Thoughtなどの手法を用いても40%未満であることがわかった。
本分析は,GPT4の低性能に対する主要な寄与要因として,代数的操作の誤りと関連ドメイン固有概念の検索の失敗が示されている。
ベンチマークの難易度を考えると、LSMを用いた問題解決における今後の研究をガイドできることを願っている。
コードとデータセットはここにある。
関連論文リスト
- Can Language Models Solve Olympiad Programming? [40.54366634332231]
本稿ではUSACOベンチマークについて,USA Computing Olympiadの307の問題点について紹介する。
競争型プログラミングのための様々なLM推論手法を初めて構築・テストする。
GPT-4 は 8.7% パス@1 の精度しか達成していない。
論文 参考訳(メタデータ) (2024-04-16T23:27:38Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Can LLMs Master Math? Investigating Large Language Models on Math Stack Exchange [25.419977967846144]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な機能を示した。
本稿では、複雑な数学的問題解決をナビゲートする上でのLLMの限界について考察する。
論文 参考訳(メタデータ) (2024-03-30T12:48:31Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Augmenting Math Word Problems via Iterative Question Composing [8.186291374940595]
本稿では,処理されたWebデータと合成質問応答ペアを組み合わせたMMIQCデータセットを提案する。
Qwen-72B-MMIQCは45.0%の精度を達成し、以前のオープンソースの現状を8.2%上回っている。
論文 参考訳(メタデータ) (2024-01-17T06:48:16Z) - CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs'
Mathematical Reasoning Capabilities [29.06174003306662]
概念とHint-Annotated Math Problems (CHAMP) は、高校数学の競争問題である。
このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。
モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
論文 参考訳(メタデータ) (2024-01-13T03:18:16Z) - Competition-Level Problems are Effective LLM Evaluators [124.7648712310141]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - ARB: Advanced Reasoning Benchmark for Large Language Models [94.37521840642141]
複数の分野における先進的推論問題からなる新しいベンチマークであるABBを紹介する。
ARBのサブセットとして、高度なシンボリック推論とドメイン知識を必要とする数学と物理学の問題を紹介する。
我々は, GPT-4 や Claude on ARB などの最近のモデルを評価し, より要求の高いタスクにおいて, 現在のモデルが50%以下であることを示す。
論文 参考訳(メタデータ) (2023-07-25T17:55:19Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models [72.92461995173201]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。