Fugu-MT 論文翻訳(概要): SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading

論文の概要: SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading

arxiv url: http://arxiv.org/abs/2406.10421v1
Date: Fri, 14 Jun 2024 21:52:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 00:32:34.256634
Title: SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading
Title（参考訳）: SciEx: 人間の専門的なグラデーションと自動グラデーションによる科学実験における大規模言語モデルのベンチマーク
Authors: Tu Anh Dinh, Carlos Mullov, Leonard Bärmann, Zhaolin Li, Danni Liu, Simon Reiß, Jueun Lee, Nathan Lerzer, Fabian Ternava, Jianfeng Gao, Alexander Waibel, Tamim Asfour, Michael Beigl, Rainer Stiefelhagen, Carsten Dachsbacher, Klemens Böhm, Jan Niehues,
Abstract要約: LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
参考スコア（独自算出の注目度）: 100.28350993867221
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: With the rapid development of Large Language Models (LLMs), it is crucial to have benchmarks which can evaluate the ability of LLMs on different domains. One common use of LLMs is performing tasks on scientific topics, such as writing algorithms, querying databases or giving mathematical proofs. Inspired by the way university students are evaluated on such tasks, in this paper, we propose SciEx - a benchmark consisting of university computer science exam questions, to evaluate LLMs ability on solving scientific tasks. SciEx is (1) multilingual, containing both English and German exams, and (2) multi-modal, containing questions that involve images, and (3) contains various types of freeform questions with different difficulty levels, due to the nature of university exams. We evaluate the performance of various state-of-the-art LLMs on our new benchmark. Since SciEx questions are freeform, it is not straightforward to evaluate LLM performance. Therefore, we provide human expert grading of the LLM outputs on SciEx. We show that the free-form exams in SciEx remain challenging for the current LLMs, where the best LLM only achieves 59.4\% exam grade on average. We also provide detailed comparisons between LLM performance and student performance on SciEx. To enable future evaluation of new LLMs, we propose using LLM-as-a-judge to grade the LLM answers on SciEx. Our experiments show that, although they do not perform perfectly on solving the exams, LLMs are decent as graders, achieving 0.948 Pearson correlation with expert grading.
Abstract（参考訳）: LLM(Large Language Models)の急速な発展に伴い、異なるドメインにおけるLLMの能力を評価するためのベンチマークが不可欠である。 LLMの一般的な用途の1つは、アルゴリズムの作成、データベースのクエリ、数学的証明など、科学的なトピックに関するタスクを実行することである。本稿では,このような課題に対する大学生の評価の仕方から着想を得たSciExを提案する。 SciExは、(1)英語とドイツ語の両方の試験を含む多言語言語であり、(2)画像を含む質問を含むマルチモーダルであり、(3)大学試験の性質から、難易度が異なる様々な種類のフリーフォーム質問を含む。我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。 SciEx の質問は自由形式であるため LLM の性能を評価することは容易ではない。そこで我々は,SciEx 上での LLM 出力の人間の専門家による評価を行った。我々は、SciExのフリーフォーム試験が、現在、最高のLLMが平均59.4\%の試験成績しか達成していないLLMにとって、依然として挑戦的であることを示した。また,SciEx 上での LLM 性能と学生成績の詳細な比較を行った。 SciEx 上で LLM 回答を評価できる LLM-as-a-judge を提案する。実験の結果,LLMは試験の解法において完璧に機能するわけではないが,中等生として適しており,Pearson とエキスパートの成績の相関は0.948であることがわかった。

関連論文リスト

On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳（メタデータ） (2025-04-25T15:39:04Z)
Humanity's Last Exam [434.8511341499966]
HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。数学、人文科学、自然科学など、数十の分野にまたがる2,500の質問で構成されている。各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
論文参考訳（メタデータ） (2025-01-24T05:27:46Z)
The Alternative Annotator Test for LLM-as-a-Judge: How to Statistically Justify Replacing Human Annotators with LLMs [21.97227334180969]
LLM-as-a-judge"パラダイムでは、人間が伝統的に行ってきたタスクにおいて、アノテータや評価役としてLarge Language Modelsを採用している。研究結果や洞察を形成する上での役割にもかかわらず、LLMがヒトのアノテーターを置き換えることができるかどうかを判断するための標準的あるいは厳格な手順は存在しない。 LLMアノテーションの使用を正当化するためには、アノテーション付き例の控えめなサブセットだけを必要とする新しい統計手順である代替アノテーションテスト(alt-test)を提案する。
論文参考訳（メタデータ） (2025-01-19T07:09:11Z)
CARL-GT: Evaluating Causal Reasoning Capabilities of Large Language Models [18.975064947089805]
因果推論能力は、教育や医療といった幅広い応用において、大きな言語モデル(LLM)にとって不可欠である。グラフとタブラリデータを用いた大規模言語モデルのCAusal Reasoning機能を評価するCARL-GTというベンチマークを提供する。
論文参考訳（メタデータ） (2024-12-23T20:34:32Z)
U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs [2.2330469342127577]
教材から得られた大学レベルの未発表問題1,100件の新規ベンチマークであるU-MATHを紹介する。 6つの中核領域でバランスが取れており、20%のマルチモーダル問題がある。 U-MATH問題のオープンな性質を考えると、生成した解の正しさを判断するために LLM を用いる。その結果,LLMはテキストベースのタスクでは最大63%の精度しか得られず,視覚的問題では45%以下であった。
論文参考訳（メタデータ） (2024-12-04T10:44:50Z)
CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文参考訳（メタデータ） (2024-10-23T04:55:08Z)
CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline [42.61538071832468]
大規模言語モデル(LLM)は、人間の言語の優れた習得を示すが、数学的な問題解決を必要とする現実世界のアプリケーションでは依然として苦戦している。 LLMアライメントのフィードバック学習段階における課題に対処する自己批判パイプラインを調整します。
論文参考訳（メタデータ） (2024-04-03T17:51:18Z)
Can LLMs Master Math? Investigating Large Language Models on Math Stack Exchange [25.419977967846144]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な機能を示した。本稿では、複雑な数学的問題解決をナビゲートする上でのLLMの限界について考察する。
論文参考訳（メタデータ） (2024-03-30T12:48:31Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。 FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文参考訳（メタデータ） (2024-02-16T22:12:53Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
"Which LLM should I use?": Evaluating LLMs for tasks performed by Undergraduate Computer Science Students [2.6043678412433713]
本研究では,大学生に共通する作業における大規模言語モデル(LLM)の有効性を評価する。私たちの研究は、Google Bard、ChatGPT(3.5)、GitHub Copilot Chat、Microsoft Copilot Chatなど、公開されているLLMのいくつかを体系的に評価しています。
論文参考訳（メタデータ） (2024-01-22T15:11:36Z)
Through the Lens of Core Competency: Survey on Evaluation of Large Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。 LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文参考訳（メタデータ） (2023-08-15T17:40:34Z)
Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができるこの研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文参考訳（メタデータ） (2023-04-12T17:33:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。