Fugu-MT 論文翻訳(概要): OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems

論文の概要: OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems

arxiv url: http://arxiv.org/abs/2402.14008v1
Date: Wed, 21 Feb 2024 18:49:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 14:05:30.170437
Title: OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems
Title（参考訳）: OlympiadBench: Olympiad-Level Bilingual Multimodal Scientific Problemsを用いたAGIの促進ベンチマーク
Authors: Chaoqun He, Renjie Luo, Yuzhuo Bai, Shengding Hu, Zhen Leng Thai, Junhao Shen, Jinyi Hu, Xu Han, Yujie Huang, Yuxiang Zhang, Jie Liu, Lei Qi, Zhiyuan Liu, Maosong Sun
Abstract要約: 我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションから8,952の問題を取り上げている。最も優れたモデルであるGPT-4Vは、オリンピアドベンチの平均スコアは17.23%に達し、物理では11.28%である。 GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
参考スコア（独自算出の注目度）: 63.451205097356926
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements have seen Large Language Models (LLMs) and Large Multimodal Models (LMMs) surpassing general human capabilities in various tasks, approaching the proficiency level of human experts across multiple domains. With traditional benchmarks becoming less challenging for these models, new rigorous challenges are essential to gauge their advanced abilities. In this work, we present OlympiadBench, an Olympiad-level bilingual multimodal scientific benchmark, featuring 8,952 problems from Olympiad-level mathematics and physics competitions, including the Chinese college entrance exam. Each problem is detailed with expert-level annotations for step-by-step reasoning. Evaluating top-tier models on OlympiadBench, we implement a comprehensive assessment methodology to accurately evaluate model responses. Notably, the best-performing model, GPT-4V, attains an average score of 17.23% on OlympiadBench, with a mere 11.28% in physics, highlighting the benchmark rigor and the intricacy of physical reasoning. Our analysis orienting GPT-4V points out prevalent issues with hallucinations, knowledge omissions, and logical fallacies. We hope that our challenging benchmark can serve as a valuable resource for helping future AGI research endeavors.
Abstract（参考訳）: 近年,Large Language Models (LLMs) やLarge Multimodal Models (LMMs) が様々なタスクにおいて一般の人間の能力を上回っ,複数のドメインにわたる専門家の熟練度に近づいている。従来のベンチマークはこれらのモデルにとって難易度が低いため、高度な能力を評価するために新しい厳格な課題が不可欠である。本研究では,オリンピアドレベルの多言語多言語科学ベンチマークであるオリンピアドベンチ(olympiadbench)について紹介する。それぞれの問題は、ステップバイステップの推論のための専門家レベルのアノテーションで詳述されている。 OlympiadBench上での上位モデルの評価を行い、モデル応答を正確に評価する包括的評価手法を実装した。特に、最も優れたモデルであるgpt-4vはオリンピアドベンチで平均スコア17.23%に達し、物理学では11.28%であり、ベンチマークの厳密さと物理的推論の複雑さを強調している。 GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。我々の挑戦的なベンチマークが、将来のagi研究の努力を助ける貴重なリソースとなることを願っている。

関連論文リスト

AMO-Bench: Large Language Models Still Struggle in High School Math Competitions [22.16740349046417]
AMO-Bench は Olympiad レベルの高度な数学的推論ベンチマークである。 AMO-Benchのそれぞれの問題は証明よりも最終解のみを必要とし、評価のために自動的かつ堅牢なグレーディングを可能にする。 AMO-Bench上で26LLMでの実験結果から、最高の性能のモデルでさえ52.4%の精度しか達成できないことが示された。
論文参考訳（メタデータ） (2025-10-30T17:52:02Z)
Large Language Models Achieve Gold Medal Performance at the International Olympiad on Astronomy & Astrophysics (IOAA) [43.53870250026015]
我々は,国際天文学・天体物理学試験(IOAA)において,5つの大きな言語モデル(LLM)をベンチマークした。平均スコアは85.6%、84.2%で、ジェミニ2.5 ProとGPT-5は4つのIOAA理論試験で200-300人中上位2位にランクインした。 GPT-5は88.5%のスコアで試験に合格しており、最新の4つのIOAAの参加者の中ではトップ10にランクインしている。
論文参考訳（メタデータ） (2025-10-06T16:58:47Z)
EEFSUVA: A New Mathematical Olympiad Benchmark [1.7589620883907298]
我々は,大規模言語モデル (LLM) がOlympiad のゴールドメダルと数学ベンチマークの卒業レベルの習熟度に一致していると主張している。我々は,東欧及び旧ソ連の国々で流通している地域および全国のオリンピアードから収集された新しいベンチマークであるEEFSUVAを紹介する。予備的な結果は、最先端のLLMでさえ、他のオリンピアド型ベンチマークと比較して、EEFSUVAは顕著な性能低下を示していることを示唆している。
論文参考訳（メタデータ） (2025-09-23T01:57:56Z)
HiPhO: How Far Are (M)LLMs from Humans in the Latest High School Physics Olympiad Benchmark? [53.76627321546095]
HiPhOは、人間による評価を備えた、高校の物理学オリンピアードのための最初のベンチマークである。 2024年から2025年にかけて13回のオリンピアード試験をコンパイルし、国際大会と地域競技の両方にまたがる。我々は、(M)LLMとヒトの競技者との直接比較を可能にするため、公式メダル閾値に基づくモデルに金、銀、銅のメダルを割り当てる。
論文参考訳（メタデータ） (2025-09-09T16:24:51Z)
PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。 PhysUniBenchは、3,304の物理問題から成っている。ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文参考訳（メタデータ） (2025-06-21T09:55:42Z)
R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation [75.33671166231096]
我々は、Reasoning Bench(R-Bench)と呼ばれる、大学院レベルの多学派、英語の中国語ベンチマークを導入する。 RBenchは108の被験者に1,094の質問を、83の被験者に665の質問を、マルチモーダルなモデルテストに当てはめている。我々は,OpenAI o1,GPT-4o,DeepSeek-R1など,広く使用されているモデルを評価した。
論文参考訳（メタデータ） (2025-05-04T07:48:36Z)
PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models [30.597050689757605]
PHYBenchは、物理コンテキストにおける大規模言語モデル(LLM)の推論能力を評価するためのベンチマークである。現実の物理シナリオに基づく500の物理問題からなり、力学、電磁力学、熱力学、光学、近代物理学、先進物理学をカバーしている。また,数式間の編集距離に基づく新しい評価指標であるExpression Edit Distance (EED) Scoreを提案する。
論文参考訳（メタデータ） (2025-04-22T17:53:29Z)
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。 OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文参考訳（メタデータ） (2025-03-27T11:20:17Z)
UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models [39.917074900737575]
大規模言語モデル(LLM)は、複雑な推論タスクを解く際、顕著な能力を示した。物理学の推論の領域は、非常に少ない注意を払われたユニークな課題を提示する。既存のベンチマークは、学部レベルの物理学の広さと深さでLLMの能力を評価するのに不足することが多い。
論文参考訳（メタデータ） (2025-02-01T06:42:02Z)
Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。既存のOlympiad関連のベンチマークとは異なり、我々のデータセットは数学にのみ焦点をあてている。実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,高度に難解なオリンピアドレベルの問題に悩まされていることが明らかとなった。
論文参考訳（メタデータ） (2024-10-10T14:39:33Z)
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文参考訳（メタデータ） (2024-06-18T16:20:53Z)
Can Language Models Solve Olympiad Programming? [40.54366634332231]
本稿ではUSACOベンチマークについて,USA Computing Olympiadの307の問題点について紹介する。競争型プログラミングのための様々なLM推論手法を初めて構築・テストする。 GPT-4 は 8.7% パス@1 の精度しか達成していない。
論文参考訳（メタデータ） (2024-04-16T23:27:38Z)
SceMQA: A Scientific College Entrance Level Multimodal Question Answering Benchmark [42.91902601376494]
本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。 SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
論文参考訳（メタデータ） (2024-02-06T19:16:55Z)
ARB: Advanced Reasoning Benchmark for Large Language Models [94.37521840642141]
複数の分野における先進的推論問題からなる新しいベンチマークであるABBを紹介する。 ARBのサブセットとして、高度なシンボリック推論とドメイン知識を必要とする数学と物理学の問題を紹介する。我々は, GPT-4 や Claude on ARB などの最近のモデルを評価し, より要求の高いタスクにおいて, 現在のモデルが50%以下であることを示す。
論文参考訳（メタデータ） (2023-07-25T17:55:19Z)
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。 SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文参考訳（メタデータ） (2023-07-20T07:01:57Z)
Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文参考訳（メタデータ） (2023-05-24T11:55:59Z)
AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。 GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。 GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文参考訳（メタデータ） (2023-04-13T09:39:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。