論文の概要: OlympiadBench: A Challenging Benchmark for Promoting AGI with
Olympiad-Level Bilingual Multimodal Scientific Problems
- arxiv url: http://arxiv.org/abs/2402.14008v1
- Date: Wed, 21 Feb 2024 18:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 14:05:30.170437
- Title: OlympiadBench: A Challenging Benchmark for Promoting AGI with
Olympiad-Level Bilingual Multimodal Scientific Problems
- Title(参考訳): OlympiadBench: Olympiad-Level Bilingual Multimodal Scientific Problemsを用いたAGIの促進ベンチマーク
- Authors: Chaoqun He, Renjie Luo, Yuzhuo Bai, Shengding Hu, Zhen Leng Thai,
Junhao Shen, Jinyi Hu, Xu Han, Yujie Huang, Yuxiang Zhang, Jie Liu, Lei Qi,
Zhiyuan Liu, Maosong Sun
- Abstract要約: 我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションから8,952の問題を取り上げている。
最も優れたモデルであるGPT-4Vは、オリンピアドベンチの平均スコアは17.23%に達し、物理では11.28%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
- 参考スコア(独自算出の注目度): 63.451205097356926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements have seen Large Language Models (LLMs) and Large
Multimodal Models (LMMs) surpassing general human capabilities in various
tasks, approaching the proficiency level of human experts across multiple
domains. With traditional benchmarks becoming less challenging for these
models, new rigorous challenges are essential to gauge their advanced
abilities. In this work, we present OlympiadBench, an Olympiad-level bilingual
multimodal scientific benchmark, featuring 8,952 problems from Olympiad-level
mathematics and physics competitions, including the Chinese college entrance
exam. Each problem is detailed with expert-level annotations for step-by-step
reasoning. Evaluating top-tier models on OlympiadBench, we implement a
comprehensive assessment methodology to accurately evaluate model responses.
Notably, the best-performing model, GPT-4V, attains an average score of 17.23%
on OlympiadBench, with a mere 11.28% in physics, highlighting the benchmark
rigor and the intricacy of physical reasoning. Our analysis orienting GPT-4V
points out prevalent issues with hallucinations, knowledge omissions, and
logical fallacies. We hope that our challenging benchmark can serve as a
valuable resource for helping future AGI research endeavors.
- Abstract(参考訳): 近年,Large Language Models (LLMs) やLarge Multimodal Models (LMMs) が様々なタスクにおいて一般の人間の能力を上回っ,複数のドメインにわたる専門家の熟練度に近づいている。
従来のベンチマークはこれらのモデルにとって難易度が低いため、高度な能力を評価するために新しい厳格な課題が不可欠である。
本研究では,オリンピアドレベルの多言語多言語科学ベンチマークであるオリンピアドベンチ(olympiadbench)について紹介する。
それぞれの問題は、ステップバイステップの推論のための専門家レベルのアノテーションで詳述されている。
OlympiadBench上での上位モデルの評価を行い、モデル応答を正確に評価する包括的評価手法を実装した。
特に、最も優れたモデルであるgpt-4vはオリンピアドベンチで平均スコア17.23%に達し、物理学では11.28%であり、ベンチマークの厳密さと物理的推論の複雑さを強調している。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
我々の挑戦的なベンチマークが、将来のagi研究の努力を助ける貴重なリソースとなることを願っている。
関連論文リスト
- SceMQA: A Scientific College Entrance Level Multimodal Question
Answering Benchmark [42.91902601376494]
本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。
SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。
複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
論文 参考訳(メタデータ) (2024-02-06T19:16:55Z) - MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning
Benchmark for Expert AGI [65.05714028679317]
MMMUは、大規模多分野タスクにおけるマルチモーダルモデルを評価するために設計された新しいベンチマークである。
被験者は30名、サブフィールドは183名、画像タイプは30名である。
14のオープンソースLMMとプロプライエタリなGPT-4V(ision)とGeminiの評価は、MMMUがもたらす重大な課題を強調している。
論文 参考訳(メタデータ) (2023-11-27T17:33:21Z) - PsyBench: a balanced and in-depth Psychological Chinese Evaluation
Benchmark for Foundation Models [24.374021704696858]
卒業試験に必要な知識をすべて網羅する,中国初の総合的な評価スイートであるpsybenchを紹介する。
本研究は, 被験者の異なる部位における性能の有意な差異を示し, テストセットにおける知識のバランスが取れていない場合に, スクイード結果のリスクを強調した。
我々は, Psybench が基礎モデルの強みと弱みの徹底的な評価に役立ち, 心理学の分野での実践的応用を支援することを期待する。
論文 参考訳(メタデータ) (2023-11-16T12:43:18Z) - ARB: Advanced Reasoning Benchmark for Large Language Models [94.37521840642141]
複数の分野における先進的推論問題からなる新しいベンチマークであるABBを紹介する。
ARBのサブセットとして、高度なシンボリック推論とドメイン知識を必要とする数学と物理学の問題を紹介する。
我々は, GPT-4 や Claude on ARB などの最近のモデルを評価し, より要求の高いタスクにおいて, 現在のモデルが50%以下であることを示す。
論文 参考訳(メタデータ) (2023-07-25T17:55:19Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models [72.92461995173201]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。
高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。
さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文 参考訳(メタデータ) (2023-05-24T11:55:59Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - Solving Quantitative Reasoning Problems with Language Models [53.53969870599973]
我々は、一般的な自然言語データに基づいて事前訓練された大規模言語モデルであるMinervaを紹介し、さらに技術的な内容について訓練する。
このモデルは、外部ツールを使わずに、技術的ベンチマークで最先端のパフォーマンスを達成する。
我々はまた、物理学、生物学、化学、経済学、その他の科学における200以上の学部レベルの問題に対して、我々のモデルを評価した。
論文 参考訳(メタデータ) (2022-06-29T18:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。