Fugu-MT 論文翻訳(概要): SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models

論文の概要: SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models

arxiv url: http://arxiv.org/abs/2307.10635v1
Date: Thu, 20 Jul 2023 07:01:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-21 14:20:04.806171
Title: SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models
Title（参考訳）: SciBench:大規模言語モデルの大学レベルの科学的問題解決能力の評価
Authors: Xiaoxuan Wang and Ziniu Hu and Pan Lu and Yanqiao Zhu and Jieyu Zhang and Satyen Subramaniam and Arjun R. Loomba and Shichang Zhang and Yizhou Sun and Wei Wang
Abstract要約: 本稿では,複雑な科学的問題解決に必要な推論能力を体系的に検討するためのベンチマークスイートSciBenchを紹介する。 2つの代表的大言語モデル(LLM)の詳細なベンチマークを行い、様々なプロンプト戦略について検討する。その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは35.80%に過ぎなかった。
参考スコア（独自算出の注目度）: 38.483625781293235
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in large language models (LLMs) have demonstrated notable progress on many mathematical benchmarks. However, most of these benchmarks only feature problems grounded in junior and senior high school subjects, contain only multiple-choice questions, and are confined to a limited scope of elementary arithmetic operations. To address these issues, this paper introduces an expansive benchmark suite SciBench that aims to systematically examine the reasoning capabilities required for complex scientific problem solving. SciBench contains two carefully curated datasets: an open set featuring a range of collegiate-level scientific problems drawn from mathematics, chemistry, and physics textbooks, and a closed set comprising problems from undergraduate-level exams in computer science and mathematics. Based on the two datasets, we conduct an in-depth benchmark study of two representative LLMs with various prompting strategies. The results reveal that current LLMs fall short of delivering satisfactory performance, with an overall score of merely 35.80%. Furthermore, through a detailed user study, we categorize the errors made by LLMs into ten problem-solving abilities. Our analysis indicates that no single prompting strategy significantly outperforms others and some strategies that demonstrate improvements in certain problem-solving skills result in declines in other skills. We envision that SciBench will catalyze further developments in the reasoning abilities of LLMs, thereby ultimately contributing to scientific research and discovery.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、多くの数学的なベンチマークにおいて顕著な進歩を示している。しかし、これらのベンチマークのほとんどは中高生に根ざした問題に過ぎず、複数の質問しか含んでおらず、初等算術演算の限られた範囲に限定されている。本稿では,複雑な科学的問題解決に必要な推論能力を体系的に検討することを目的とした,拡張型ベンチマークスイート scibench を提案する。 SciBench には、数学、化学、物理学の教科書から引き出された様々な大学レベルの科学的問題を含むオープンセットと、コンピュータ科学と数学の学部レベルの試験から問題を構成するクローズドセットの2つの慎重に計算されたデータセットが含まれている。 2つのデータセットに基づいて,さまざまなプロンプト戦略を持つ2つの代表的llmの詳細なベンチマーク研究を行う。その結果、現在のLLMは満足なパフォーマンスを達成できないことが判明し、全体のスコアは35.80%に過ぎなかった。さらに,詳細なユーザ調査を行い,llmによる誤りを10の問題解決能力に分類した。分析の結果,特定の問題解決スキルの改善を示す戦略が,他のスキルの低下につながることが示唆された。我々は、SciBenchがLSMの推論能力のさらなる発展を触媒し、究極的には科学的研究と発見に寄与することを期待している。

関連論文リスト

MatSciBench: Benchmarking the Reasoning Ability of Large Language Models in Materials Science [28.11660982198711]
MatSciBenchは1,340の問題からなる総合的な大学レベルのベンチマークである。 MatSciBenchは、物質科学の質問を6つの主要分野と31の亜分野に分類する構造的できめ細かな分類を特徴としている。先行モデルの評価によると、最高のパフォーマンスモデルであるGemini-2.5-Proでさえ、大学レベルの材料科学の質問に対して80%未満の精度で達成されている。
論文参考訳（メタデータ） (2025-10-14T05:59:40Z)
Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning [53.82037883518254]
SciReasは、科学的推論タスクのための様々なベンチマークスイートである。次に、科学的タスクにおける推論と知識の異なる役割を研究するための探索フレームワークであるKRUXを提案する。
論文参考訳（メタデータ） (2025-08-26T17:04:23Z)
MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。 MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。 MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文参考訳（メタデータ） (2025-08-09T06:21:10Z)
ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models [70.33764118171463]
大きな言語モデル(LLM)は、解決不可能な問題やその能力を超える問題に直面した時に、信頼できない応答を作る傾向があります。我々はオープンソースの解決可能問題と高品質の未解決問題を含むReliableMathデータセットを開発した。 LLMは解決不可能な問題を直接特定できず、常に生成された応答を生成する。
論文参考訳（メタデータ） (2025-07-03T19:19:44Z)
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey [48.53273952814492]
大規模言語モデル(LLM)は、様々なドメインにまたがる複雑な問題に対処できる強力なツールとして登場した。 LLMを現実世界の問題解決に適用することは、多段階推論、ドメイン知識の統合、結果検証など、重大な課題を提示します。
論文参考訳（メタデータ） (2025-05-06T10:53:58Z)
Improving Physics Reasoning in Large Language Models Using Mixture of Refinement Agents [27.112239616508834]
ミキチャー・オブ・リファインメント・エージェント(Mixture of Refinement Agents, MORA)は、大規模言語モデル(LLM)のための新しいエージェント・リファインメント・フレームワークである。 MoRAは、前述の誤りを訂正することで、LLM生成ベースソリューションを反復的に洗練し、その結果、オープンソースのLLMの性能が大幅に向上する。我々は、SciEvalおよびMMLUサブセットに対する我々のアプローチと、我々の物理データセット(PhysicsQA)を評価する。
論文参考訳（メタデータ） (2024-12-01T14:15:55Z)
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。 ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。 2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。 GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文参考訳（メタデータ） (2024-10-06T14:59:09Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data [20.31528845718877]
大規模言語モデル(LLM)は、非常に高度な自然言語理解を持ち、強力な問題解決能力を示した。本稿では,新たに開発された"MathOdyssey"データセットを用いて,LLMの数学的問題解決能力について検討する。
論文参考訳（メタデータ） (2024-06-26T13:02:35Z)
SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models [35.98892300665275]
SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの科学的知識の段階にわたる大規模言語モデル(LLM)を評価するフレームワークである。これらのレベルは、記憶、理解、推論、識別、応用を含むLLMにおける科学知識の幅と深さを評価することを目的としている。ゼロショットと少数ショットのプロンプト戦略を用いて、26の高度なオープンソースおよびプロプライエタリなLCMをベンチマークした。
論文参考訳（メタデータ） (2024-06-13T13:27:52Z)
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B [48.45472563225202]
本稿では,大規模言語モデル (LLM) とモンテカルロ木探索 (MCTS) を革新的に統合した MCT Self-Refine (MCTSr) アルゴリズムを提案する。このアルゴリズムは、セレクション、自己定義、自己評価、バックプロパゲーションの反復的なプロセスを通じてモンテカルロ探索木を構築する。大規模な実験は、オリンピアードレベルの数学問題の解法におけるMCTSrの有効性を示す。
論文参考訳（メタデータ） (2024-06-11T16:01:07Z)
Can LLMs Solve longer Math Word Problems Better? [47.227621867242]
大規模言語モデル(LLM)の能力評価にはMWP(Math Word Problems)が不可欠であるこの研究は、文脈長一般化可能性(CoLeG)の探索の先駆者である。これらの問題を解決する上で, LLMの有効性とレジリエンスを評価するために, 2つの新しい指標が提案されている。
論文参考訳（メタデータ） (2024-05-23T17:13:50Z)
Adversarial Math Word Problem Generation [6.92510069380188]
大規模言語モデル(LLM)の公平な評価を保証するための新しいパラダイムを提案する。評価を目的とした質問の構造と難易度を保持する逆例を生成するが,LLMでは解けない。我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。
論文参考訳（メタデータ） (2024-02-27T22:07:52Z)
Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文参考訳（メタデータ） (2023-12-04T18:58:57Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)
NLPBench: Evaluating Large Language Models on Solving NLP Problems [41.01588131136101]
大規模言語モデル(LLM)は、自然言語処理(NLP)の能力を高めることを約束している。イェール大学の最終試験から得られた様々なNLPトピックにまたがる378の大学レベルのNLP質問を含む,ユニークなベンチマークデータセットであるNLPBenchを提案する。 GPT-3.5/4, PaLM-2, LLAMA-2などのLCMに着目した評価では, チェーン・オブ・シークレット(CoT)やツリー・オブ・シークレット(ToT)といった先進的なプロンプト戦略が取り入れられている。
論文参考訳（メタデータ） (2023-09-27T13:02:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。