論文の概要: CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery
- arxiv url: http://arxiv.org/abs/2406.08587v1
- Date: Wed, 12 Jun 2024 18:47:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 22:17:23.737383
- Title: CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery
- Title(参考訳): CS-Bench:コンピュータサイエンスの習得に向けた大規模言語モデルの総合ベンチマーク
- Authors: Xiaoshuai Song, Muxi Diao, Guanting Dong, Zhengyang Wang, Yujia Fu, Runqi Qiao, Zhexu Wang, Dayuan Fu, Huangxuan Wu, Bin Liang, Weihao Zeng, Yejie Wang, Zhuoma GongQue, Jianing Yu, Qiuna Tan, Weiran Xu,
- Abstract要約: 計算機科学における大規模言語モデルの性能評価のための最初のベンチマークであるCS-Benchを紹介する。
CS-Benchは、コンピュータ科学の4つの重要な領域にまたがる26のサブフィールドをカバーする、5Kの精巧にキュレートされたテストサンプルで構成されている。
CS性能とモデルスケールの関係を明らかにするため,30以上のLLMの総合評価を行った。
- 参考スコア(独自算出の注目度): 26.380167844990115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer Science (CS) stands as a testament to the intricacies of human intelligence, profoundly advancing the development of artificial intelligence and modern society. However, the current community of large language models (LLMs) overly focuses on benchmarks for analyzing specific foundational skills (e.g. mathematics and code generation), neglecting an all-round evaluation of the computer science field. To bridge this gap, we introduce CS-Bench, the first bilingual (Chinese-English) benchmark dedicated to evaluating the performance of LLMs in computer science. CS-Bench comprises approximately 5K meticulously curated test samples, covering 26 subfields across 4 key areas of computer science, encompassing various task forms and divisions of knowledge and reasoning. Utilizing CS-Bench, we conduct a comprehensive evaluation of over 30 mainstream LLMs, revealing the relationship between CS performance and model scales. We also quantitatively analyze the reasons for failures in existing LLMs and highlight directions for improvements, including knowledge supplementation and CS-specific reasoning. Further cross-capability experiments show a high correlation between LLMs' capabilities in computer science and their abilities in mathematics and coding. Moreover, expert LLMs specialized in mathematics and coding also demonstrate strong performances in several CS subfields. Looking ahead, we envision CS-Bench serving as a cornerstone for LLM applications in the CS field and paving new avenues in assessing LLMs' diverse reasoning capabilities. The CS-Bench data and evaluation code are available at https://github.com/csbench/csbench.
- Abstract(参考訳): コンピュータサイエンス(CS)は、人工知能と現代社会の発展を大いに推進し、人間の知能の複雑さの証である。
しかし、現在の大規模言語モデル(LLM)のコミュニティは、コンピュータ科学分野の全体的評価を無視し、特定の基礎技術(例えば、数学やコード生成)を分析するためのベンチマークに過度に重点を置いている。
このギャップを埋めるために,コンピュータ科学におけるLLMの性能を評価するための最初のバイリンガル(中国語-英語)ベンチマークCS-Benchを紹介する。
CS-Benchは、コンピュータ科学の4つの重要な領域にまたがる26のサブフィールドをカバーし、様々なタスクフォームと知識と推論の分割を含んでいる。
CS-Benchを用いて30以上のLLMの総合評価を行い,CS性能とモデルスケールの関係を明らかにする。
また,既存のLCMの障害原因を定量的に分析し,知識補充やCS固有の推論を含む改善の方向性を明らかにする。
さらなるクロスキャパビリティ実験は、計算機科学におけるLLMの能力と、数学やコーディングにおけるそれらの能力との間に高い相関関係を示す。
さらに、数学とコーディングを専門とするLSMは、いくつかのCSサブフィールドで強い性能を示す。
今後、CS分野におけるLCM応用の基盤としてCS-Benchが期待され、LCMの多様な推論能力を評価するための新たな道が開かれた。
CS-Benchのデータと評価コードはhttps://github.com/csbench/csbench.comで公開されている。
関連論文リスト
- CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。
複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文 参考訳(メタデータ) (2024-10-23T04:55:08Z) - MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。
我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-07T02:30:07Z) - Qiskit Code Assistant: Training LLMs for generating Quantum Computing Code [2.0108122340549985]
本稿では,量子コンピューティングの分野を専門とする Code LLM のトレーニングに焦点をあてる。
量子コンピューティングに特化したコードLLMは、量子コンピューティングと量子情報理論の基本的な理解を必要とする。
我々は,Qiskitライブラリを用いて,高品質な量子コードを生成するための Code LLMs のトレーニングについて論じる。
論文 参考訳(メタデータ) (2024-05-29T20:21:00Z) - MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - CS1-LLM: Integrating LLMs into CS1 Instruction [0.6282171844772422]
本経験報告では,大規模言語モデルを完全に取り入れた大規模大学におけるCS1コースについて述べる。
LLMを組み込むため、コースは意図的に変更され、シンタックスやコードの記述がスクラッチから強調されるようになった。
学生は3つの異なる領域に3つの大きなオープンエンドプロジェクトを与えられ、彼らの創造性を誇示した。
論文 参考訳(メタデータ) (2024-04-17T14:44:28Z) - CSEPrompts: A Benchmark of Introductory Computer Science Prompts [11.665831944836118]
AI、機械学習、NLPの最近の進歩は、新しい世代のLarge Language Models(LLM)の開発に繋がった。
商業的応用により、この技術は一般大衆に利用できるようになったため、学術的および専門的な目的のために高品質なテキストを作成するためにLLMを使用することが可能である。
学校や大学は、学生によるAI生成コンテンツの利用の増加に気づいており、この新しい技術とその潜在的な誤用の影響を調査している。
論文 参考訳(メタデータ) (2024-04-03T07:55:57Z) - DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。