論文の概要: OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI
- arxiv url: http://arxiv.org/abs/2406.12753v1
- Date: Tue, 18 Jun 2024 16:20:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 18:09:06.891830
- Title: OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI
- Title(参考訳): OlympicArena:超知能AIのための多分野認知推論のベンチマーク
- Authors: Zhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu,
- Abstract要約: 我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
- 参考スコア(独自算出の注目度): 73.75520820608232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evolution of Artificial Intelligence (AI) has been significantly accelerated by advancements in Large Language Models (LLMs) and Large Multimodal Models (LMMs), gradually showcasing potential cognitive reasoning abilities in problem-solving and scientific discovery (i.e., AI4Science) once exclusive to human intellect. To comprehensively evaluate current models' performance in cognitive reasoning abilities, we introduce OlympicArena, which includes 11,163 bilingual problems across both text-only and interleaved text-image modalities. These challenges encompass a wide range of disciplines spanning seven fields and 62 international Olympic competitions, rigorously examined for data leakage. We argue that the challenges in Olympic competition problems are ideal for evaluating AI's cognitive reasoning due to their complexity and interdisciplinary nature, which are essential for tackling complex scientific challenges and facilitating discoveries. Beyond evaluating performance across various disciplines using answer-only criteria, we conduct detailed experiments and analyses from multiple perspectives. We delve into the models' cognitive reasoning abilities, their performance across different modalities, and their outcomes in process-level evaluations, which are vital for tasks requiring complex reasoning with lengthy solutions. Our extensive evaluations reveal that even advanced models like GPT-4o only achieve a 39.97% overall accuracy, illustrating current AI limitations in complex reasoning and multimodal integration. Through the OlympicArena, we aim to advance AI towards superintelligence, equipping it to address more complex challenges in science and beyond. We also provide a comprehensive set of resources to support AI research, including a benchmark dataset, an open-source annotation platform, a detailed evaluation tool, and a leaderboard with automatic submission features.
- Abstract(参考訳): 人工知能(AI)の進化は、LMM(Large Language Models)とLMM(Large Multimodal Models)の進歩によって著しく加速され、問題解決と科学的発見(AI4Science)における潜在的な認知的推論能力を示すようになった。
認知的推論能力における現在のモデルの性能を包括的に評価するために,11,163のバイリンガル問題を含むオリンピックアレーナを導入する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
オリンピック競技問題の課題は、複雑な科学的課題に対処し発見を促進するために不可欠である、その複雑さと学際的な性質から、AIの認知的推論を評価するのに理想的である、と我々は主張する。
回答のみの基準を用いて様々な分野のパフォーマンスを評価するだけでなく、複数の観点から詳細な実験と分析を行う。
我々は、モデルの認知的推論能力、異なるモダリティをまたいだパフォーマンス、プロセスレベルの評価の結果を掘り下げる。
我々の広範な評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%にしか達していない。
オリンピックアリーナを通じて、私たちはAIを超知性に向けて前進させ、科学やそれ以上の複雑な課題に対処することを目指しています。
ベンチマークデータセット、オープンソースのアノテーションプラットフォーム、詳細な評価ツール、自動提出機能を備えたリーダボードなど、AI研究をサポートするための包括的なリソースセットも提供しています。
関連論文リスト
- Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI [95.96983812740683]
人工知能(Embodied AI)は、人工知能(AGI)の実現に不可欠である
MLMとWMは、その顕著な知覚、相互作用、推論能力のために、大きな注目を集めている。
本調査では,Embodied AIの最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-07-09T14:14:47Z) - Applications of Explainable artificial intelligence in Earth system science [12.454478986296152]
このレビューは、説明可能なAI(XAI)の基礎的な理解を提供することを目的としている。
XAIはモデルをより透明にする強力なツールセットを提供する。
我々は、地球系科学(ESS)において、XAIが直面する4つの重要な課題を識別する。
AIモデルは未知を探索し、XAIは説明を提供することでギャップを埋める。
論文 参考訳(メタデータ) (2024-06-12T15:05:29Z) - DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - Cognition is All You Need -- The Next Layer of AI Above Large Language
Models [0.0]
我々は,大規模言語モデル以外のニューロシンボリック認知のためのフレームワークであるCognitive AIを紹介する。
我々は、認知AIがAGIのようなAI形態の進化に必須の先駆者であり、AGIは独自の確率論的アプローチでは達成できないと主張する。
我々は、大規模言語モデル、AIの採用サイクル、および商用の認知AI開発に関する議論で締めくくります。
論文 参考訳(メタデータ) (2024-03-04T16:11:57Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z) - Benchmarks for Physical Reasoning AI [28.02418565463541]
既存のベンチマークの概要と、AIシステムの物理的推論能力を測定するためのソリューションアプローチについて説明する。
物理推論タスクにおけるアルゴリズム性能をテストするためのベンチマークを選択する。
提示された物理推論ベンチマークをサブカテゴリにグループ化し、より狭い一般AIエージェントをこれらのグループで最初にテストできるようにします。
論文 参考訳(メタデータ) (2023-12-17T14:24:03Z) - General Purpose Artificial Intelligence Systems (GPAIS): Properties,
Definition, Taxonomy, Societal Implications and Responsible Governance [16.030931070783637]
汎用人工知能システム(GPAIS)は、これらのAIシステムを指すものとして定義されている。
これまで、人工知能の可能性は、まるで人間であるかのように知的タスクを実行するのに十分強力であり、あるいはそれを改善することさえ可能であり、いまだに願望、フィクションであり、我々の社会にとっての危険であると考えられてきた。
本研究は,GPAISの既存の定義について論じ,その特性や限界に応じて,GPAISの種類間で段階的な分化を可能にする新しい定義を提案する。
論文 参考訳(メタデータ) (2023-07-26T16:35:48Z) - Artificial Intelligence for Science in Quantum, Atomistic, and Continuum
Systems [245.1050780515017]
科学のためのAI(AI4Science)として知られる新しい研究領域
領域は、物理世界(波動関数と電子密度)、原子(分子、タンパク質、物質、相互作用)、マクロ(流体、気候、地下)まで理解することを目的としている。
主要な課題は、物理第一原理、特に対称性を深層学習法によって自然システムで捉える方法である。
論文 参考訳(メタデータ) (2023-07-17T12:14:14Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Explainable Artificial Intelligence Approaches: A Survey [0.22940141855172028]
人工知能ベースの「ブラックボックス」システム/モデルからの決定の説明力の欠如は、ハイステークアプリケーションでAIを採用するための重要な障害です。
相互ケーススタディ/タスクにより、一般的なXAI(Explainable Artificial Intelligence)手法を実証します。
競争優位性を多角的に分析します。
我々はXAIを媒体として、責任や人間中心のAIへの道を推奨する。
論文 参考訳(メタデータ) (2021-01-23T06:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。