論文の概要: SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models
- arxiv url: http://arxiv.org/abs/2307.10635v1
- Date: Thu, 20 Jul 2023 07:01:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 14:20:04.806171
- Title: SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models
- Title(参考訳): SciBench:大規模言語モデルの大学レベルの科学的問題解決能力の評価
- Authors: Xiaoxuan Wang and Ziniu Hu and Pan Lu and Yanqiao Zhu and Jieyu Zhang
and Satyen Subramaniam and Arjun R. Loomba and Shichang Zhang and Yizhou Sun
and Wei Wang
- Abstract要約: 本稿では,複雑な科学的問題解決に必要な推論能力を体系的に検討するためのベンチマークスイートSciBenchを紹介する。
2つの代表的大言語モデル(LLM)の詳細なベンチマークを行い、様々なプロンプト戦略について検討する。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは35.80%に過ぎなかった。
- 参考スコア(独自算出の注目度): 38.483625781293235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have demonstrated notable
progress on many mathematical benchmarks. However, most of these benchmarks
only feature problems grounded in junior and senior high school subjects,
contain only multiple-choice questions, and are confined to a limited scope of
elementary arithmetic operations. To address these issues, this paper
introduces an expansive benchmark suite SciBench that aims to systematically
examine the reasoning capabilities required for complex scientific problem
solving. SciBench contains two carefully curated datasets: an open set
featuring a range of collegiate-level scientific problems drawn from
mathematics, chemistry, and physics textbooks, and a closed set comprising
problems from undergraduate-level exams in computer science and mathematics.
Based on the two datasets, we conduct an in-depth benchmark study of two
representative LLMs with various prompting strategies. The results reveal that
current LLMs fall short of delivering satisfactory performance, with an overall
score of merely 35.80%. Furthermore, through a detailed user study, we
categorize the errors made by LLMs into ten problem-solving abilities. Our
analysis indicates that no single prompting strategy significantly outperforms
others and some strategies that demonstrate improvements in certain
problem-solving skills result in declines in other skills. We envision that
SciBench will catalyze further developments in the reasoning abilities of LLMs,
thereby ultimately contributing to scientific research and discovery.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、多くの数学的なベンチマークにおいて顕著な進歩を示している。
しかし、これらのベンチマークのほとんどは中高生に根ざした問題に過ぎず、複数の質問しか含んでおらず、初等算術演算の限られた範囲に限定されている。
本稿では,複雑な科学的問題解決に必要な推論能力を体系的に検討することを目的とした,拡張型ベンチマークスイート scibench を提案する。
SciBench には、数学、化学、物理学の教科書から引き出された様々な大学レベルの科学的問題を含むオープンセットと、コンピュータ科学と数学の学部レベルの試験から問題を構成するクローズドセットの2つの慎重に計算されたデータセットが含まれている。
2つのデータセットに基づいて,さまざまなプロンプト戦略を持つ2つの代表的llmの詳細なベンチマーク研究を行う。
その結果、現在のLLMは満足なパフォーマンスを達成できないことが判明し、全体のスコアは35.80%に過ぎなかった。
さらに,詳細なユーザ調査を行い,llmによる誤りを10の問題解決能力に分類した。
分析の結果,特定の問題解決スキルの改善を示す戦略が,他のスキルの低下につながることが示唆された。
我々は、SciBenchがLSMの推論能力のさらなる発展を触媒し、究極的には科学的研究と発見に寄与することを期待している。
関連論文リスト
- CausalBench: A Comprehensive Benchmark for Causal Learning Capability of Large Language Models [27.362012903540492]
因果性は、現実世界のシナリオにおけるデータ分散の背後にある基本的な原則を明らかにする。
大規模言語モデル(LLM)は、アウトプットの説明、新しいエビデンスへの適応、反事実の生成などを通じて、因果関係がそれらの効果に直接影響を与えることを理解することができる。
本稿では,LLMの因果理解能力を評価するために,CausalBenchという包括的なベンチマークを提案する。
論文 参考訳(メタデータ) (2024-04-09T14:40:08Z) - SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis [22.988742056084455]
SciAssessは科学文献の詳細な分析のためのベンチマークである。
記憶、理解、分析におけるLLMの能力を評価することに焦点を当てている。
一般的な化学、有機材料、合金材料などの様々な科学分野からの代表的タスクを含む。
論文 参考訳(メタデータ) (2024-03-04T12:19:28Z) - LLM-Resistant Math Word Problem Generation via Adversarial Attacks [6.92510069380188]
大型言語モデル(LLM)は教育の景観を大きく変えた。
現在の盗作検出ツールがLDMのペースを維持するのに苦労しているため、教育コミュニティは学生の真の問題解決能力を評価するという課題に直面している。
評価を目的とした質問の構造と難易度を保持する逆例を生成するが,LLMでは解けない。
論文 参考訳(メタデータ) (2024-02-27T22:07:52Z) - When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models [62.42534500424585]
本稿では,人間が理解し易いが,理解し難い質問を含むファラッキー理解ベンチマークを提案する。
具体的には、FLUBが焦点を当てている不気味な質問は、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招く質問から成り立っている。
LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Competition-Level Problems are Effective LLM Evaluators [124.7648712310141]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - An Interdisciplinary Outlook on Large Language Models for Scientific
Research [3.4108358650013573]
本稿では,異なる学問分野におけるLarge Language Models(LLM)の機能と制約について述べる。
本稿では, LLM が学術調査の強化を図り, 大量の出版物を要約することで, 文献レビューの促進などの具体的な事例を提示する。
LLMが直面する課題には、広範囲で偏見のあるデータセットへの依存や、それらの使用から生じる潜在的な倫理的ジレンマが含まれる。
論文 参考訳(メタデータ) (2023-11-03T19:41:09Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - NLPBench: Evaluating Large Language Models on Solving NLP Problems [41.01588131136101]
大規模言語モデル(LLM)は、自然言語処理(NLP)の能力を高めることを約束している。
イェール大学の最終試験から得られた様々なNLPトピックにまたがる378の大学レベルのNLP質問を含む,ユニークなベンチマークデータセットであるNLPBenchを提案する。
GPT-3.5/4, PaLM-2, LLAMA-2などのLCMに着目した評価では, チェーン・オブ・シークレット(CoT)やツリー・オブ・シークレット(ToT)といった先進的なプロンプト戦略が取り入れられている。
論文 参考訳(メタデータ) (2023-09-27T13:02:06Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。