論文の概要: HardML: A Benchmark For Evaluating Data Science And Machine Learning knowledge and reasoning in AI
- arxiv url: http://arxiv.org/abs/2501.15627v1
- Date: Sun, 26 Jan 2025 18:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:55:24.280339
- Title: HardML: A Benchmark For Evaluating Data Science And Machine Learning knowledge and reasoning in AI
- Title(参考訳): HardML:AIにおけるデータサイエンスと機械学習の知識と推論を評価するベンチマーク
- Authors: Tidor-Vlad Pricope,
- Abstract要約: HardMLは、データサイエンスと機械学習の分野における知識と推論能力を評価するために設計されたベンチマークである。
HardMLは6ヶ月にわたって手作りされた、多目的の質問に挑戦する100の多様なセットで構成されている。
最先端のAIモデルは、このベンチマークで30%のエラー率を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present HardML, a benchmark designed to evaluate the knowledge and reasoning abilities in the fields of data science and machine learning. HardML comprises a diverse set of 100 challenging multiple-choice questions, handcrafted over a period of 6 months, covering the most popular and modern branches of data science and machine learning. These questions are challenging even for a typical Senior Machine Learning Engineer to answer correctly. To minimize the risk of data contamination, HardML uses mostly original content devised by the author. Current state of the art AI models achieve a 30% error rate on this benchmark, which is about 3 times larger than the one achieved on the equivalent, well known MMLU ML. While HardML is limited in scope and not aiming to push the frontier, primarily due to its multiple choice nature, it serves as a rigorous and modern testbed to quantify and track the progress of top AI. While plenty benchmarks and experimentation in LLM evaluation exist in other STEM fields like mathematics, physics and chemistry, the subfields of data science and machine learning remain fairly underexplored.
- Abstract(参考訳): 我々は、データサイエンスと機械学習の分野における知識と推論能力を評価するために設計されたベンチマークであるHardMLを提案する。
HardMLは6ヶ月にわたって手作りされ、データサイエンスと機械学習の最もポピュラーでモダンな分野をカバーする、多分野の質問に挑戦する100の多様なセットで構成されている。
これらの質問は、典型的なシニア機械学習エンジニアが正しく答えることさえ難しい。
データ汚染のリスクを最小限に抑えるため、HardMLは著者が考案したオリジナルのコンテンツを使用する。
現在の最先端AIモデルは、このベンチマークで30%のエラー率を達成する。
HardMLは範囲が限られており、フロンティアを推進しようとはしていないが、主に複数の選択の性質のために、トップAIの進捗を定量化し追跡するための厳格で現代的なテストベッドとして機能する。
LLM評価のベンチマークや実験は数学、物理学、化学といった他のSTEM分野にも数多く存在するが、データサイエンスや機械学習のサブフィールドはいまだに未熟である。
関連論文リスト
- Humanity's Last Exam [253.45228996132735]
HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。
数学、人文科学、自然科学など、数十の科目にわたる3000の質問で構成されている。
各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
論文 参考訳(メタデータ) (2025-01-24T05:27:46Z) - Machine Unlearning in Generative AI: A Survey [19.698620794387338]
生成AI技術は、(マルチモーダル)大規模言語モデルやビジョン生成モデルなど、多くの場所で展開されている。
新しい機械学習(MU)技術は、望ましくない知識を減らしたり排除したりするために開発されている。
論文 参考訳(メタデータ) (2024-07-30T03:26:09Z) - LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.02175403852253]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。
そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。
我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-06-14T21:52:21Z) - SceMQA: A Scientific College Entrance Level Multimodal Question
Answering Benchmark [42.91902601376494]
本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。
SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。
複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
論文 参考訳(メタデータ) (2024-02-06T19:16:55Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。
高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。
さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文 参考訳(メタデータ) (2023-05-24T11:55:59Z) - Machine Learning for Software Engineering: A Tertiary Study [13.832268599253412]
機械学習(ML)技術は、ソフトウェアエンジニアリング(SE)ライフサイクルアクティビティの有効性を高める。
2009~2022年に発行されたML for SEで, 体系的, 品質評価, 要約, 分類を行い, 初等研究6,117件について検討した。
MLに最も取り組まれているSE領域は、ソフトウェアの品質とテストである。
論文 参考訳(メタデータ) (2022-11-17T09:19:53Z) - A Review of Physics-based Machine Learning in Civil Engineering [0.0]
機械学習(ML)は多くの分野に適用可能な重要なツールである。
研究室でシミュレートされた土木工学アプリケーションのためのMLは、現実世界のテストでは失敗することが多い。
本稿では,物理に基づくMLの歴史と土木工学への応用について概説する。
論文 参考訳(メタデータ) (2021-10-09T15:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。