論文の概要: SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models
- arxiv url: http://arxiv.org/abs/2307.10635v2
- Date: Thu, 8 Feb 2024 23:16:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 20:42:13.595545
- Title: SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models
- Title(参考訳): SciBench:大規模言語モデルの大学レベルの科学的問題解決能力の評価
- Authors: Xiaoxuan Wang and Ziniu Hu and Pan Lu and Yanqiao Zhu and Jieyu Zhang
and Satyen Subramaniam and Arjun R. Loomba and Shichang Zhang and Yizhou Sun
and Wei Wang
- Abstract要約: 拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
- 参考スコア(独自算出の注目度): 72.92461995173201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the existing Large Language Model (LLM) benchmarks on scientific
problem reasoning focus on problems grounded in high-school subjects and are
confined to elementary algebraic operations. To systematically examine the
reasoning capabilities required for solving complex scientific problems, we
introduce an expansive benchmark suite SciBench for LLMs. SciBench contains a
carefully curated dataset featuring a range of collegiate-level scientific
problems from mathematics, chemistry, and physics domains. Based on the
dataset, we conduct an in-depth benchmarking study of representative
open-source and proprietary LLMs with various prompting strategies. The results
reveal that the current LLMs fall short of delivering satisfactory performance,
with the best overall score of merely 43.22%. Furthermore, through a detailed
user study, we categorize the errors made by LLMs into ten problem-solving
abilities. Our analysis indicates that no single prompting strategy
significantly outperforms the others and some strategies that demonstrate
improvements in certain problem-solving skills could result in declines in
other skills. We envision that SciBench will catalyze further developments in
the reasoning abilities of LLMs, thereby ultimately contributing to scientific
research and discovery.
- Abstract(参考訳): 既存のLarge Language Model (LLM) ベンチマークのほとんどは、中学生に根ざした問題に焦点をあて、基本的な代数的操作に限られている。
複雑な科学問題の解決に必要な推論能力を体系的に検討するため,LLMのための拡張ベンチマークスイートSciBenchを導入する。
SciBenchは、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含む慎重に計算されたデータセットを含んでいる。
本データセットに基づいて,様々なプロンプト戦略を持つオープンソースおよびプロプライエタリ LLM の詳細なベンチマークを行う。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
さらに,詳細なユーザ調査を行い,llmによる誤りを10の問題解決能力に分類した。
分析の結果,一つのプロンプト戦略が他を著しく上回り,特定の問題解決スキルの改善を示す戦略が他のスキルの低下をもたらす可能性が示唆された。
我々は、SciBenchがLSMの推論能力のさらなる発展を触媒し、究極的には科学的研究と発見に寄与することを期待している。
関連論文リスト
- SciAssess: Benchmarking LLM Proficiency in Scientific Literature
Analysis [23.911048340886474]
SciAssessは科学文献の詳細な分析のためのベンチマークである。
科学的な文脈における記憶、理解、分析におけるLLMの能力を評価することに焦点を当てている。
一般的な化学、有機材料、合金材料などの様々な科学分野からの代表的タスクを含む。
論文 参考訳(メタデータ) (2024-03-04T12:19:28Z) - LLM-Resistant Math Word Problem Generation via Adversarial Attacks [7.565175012136751]
大型言語モデル(LLM)は教育の景観を大きく変えた。
LLMは、問題の数値を単純に編集することで、誤った答えを生成する。
本稿では,高コストモデルを攻撃するための費用対効果のアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-27T22:07:52Z) - Puzzle Solving using Reasoning of Large Language Models: A Survey [2.1392064955842023]
本稿では,Large Language Models (LLMs) のパズル解法における能力について検討する。
以上の結果から,LLM能力と人為的推論の相違が明らかとなった。
この調査は、LLMのパズル解決能力を向上させるために、新しい戦略とよりリッチなデータセットの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-17T14:19:38Z) - When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models [62.42534500424585]
本稿では,人間が理解し易いが,理解し難い質問を含むファラッキー理解ベンチマークを提案する。
具体的には、FLUBが焦点を当てている不気味な質問は、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招く質問から成り立っている。
LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Competition-Level Problems are Effective LLM Evaluators [124.7648712310141]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - An Interdisciplinary Outlook on Large Language Models for Scientific
Research [3.4108358650013573]
本稿では,異なる学問分野におけるLarge Language Models(LLM)の機能と制約について述べる。
本稿では, LLM が学術調査の強化を図り, 大量の出版物を要約することで, 文献レビューの促進などの具体的な事例を提示する。
LLMが直面する課題には、広範囲で偏見のあるデータセットへの依存や、それらの使用から生じる潜在的な倫理的ジレンマが含まれる。
論文 参考訳(メタデータ) (2023-11-03T19:41:09Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - NLPBench: Evaluating Large Language Models on Solving NLP Problems [41.01588131136101]
大規模言語モデル(LLM)は、自然言語処理(NLP)の能力を高めることを約束している。
イェール大学の最終試験から得られた様々なNLPトピックにまたがる378の大学レベルのNLP質問を含む,ユニークなベンチマークデータセットであるNLPBenchを提案する。
GPT-3.5/4, PaLM-2, LLAMA-2などのLCMに着目した評価では, チェーン・オブ・シークレット(CoT)やツリー・オブ・シークレット(ToT)といった先進的なプロンプト戦略が取り入れられている。
論文 参考訳(メタデータ) (2023-09-27T13:02:06Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。