論文の概要: OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI
- arxiv url: http://arxiv.org/abs/2406.12753v1
- Date: Tue, 18 Jun 2024 16:20:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 18:09:06.891830
- Title: OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI
- Title(参考訳): OlympicArena:超知能AIのための多分野認知推論のベンチマーク
- Authors: Zhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu,
- Abstract要約: 我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
- 参考スコア(独自算出の注目度): 73.75520820608232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evolution of Artificial Intelligence (AI) has been significantly accelerated by advancements in Large Language Models (LLMs) and Large Multimodal Models (LMMs), gradually showcasing potential cognitive reasoning abilities in problem-solving and scientific discovery (i.e., AI4Science) once exclusive to human intellect. To comprehensively evaluate current models' performance in cognitive reasoning abilities, we introduce OlympicArena, which includes 11,163 bilingual problems across both text-only and interleaved text-image modalities. These challenges encompass a wide range of disciplines spanning seven fields and 62 international Olympic competitions, rigorously examined for data leakage. We argue that the challenges in Olympic competition problems are ideal for evaluating AI's cognitive reasoning due to their complexity and interdisciplinary nature, which are essential for tackling complex scientific challenges and facilitating discoveries. Beyond evaluating performance across various disciplines using answer-only criteria, we conduct detailed experiments and analyses from multiple perspectives. We delve into the models' cognitive reasoning abilities, their performance across different modalities, and their outcomes in process-level evaluations, which are vital for tasks requiring complex reasoning with lengthy solutions. Our extensive evaluations reveal that even advanced models like GPT-4o only achieve a 39.97% overall accuracy, illustrating current AI limitations in complex reasoning and multimodal integration. Through the OlympicArena, we aim to advance AI towards superintelligence, equipping it to address more complex challenges in science and beyond. We also provide a comprehensive set of resources to support AI research, including a benchmark dataset, an open-source annotation platform, a detailed evaluation tool, and a leaderboard with automatic submission features.
- Abstract(参考訳): 人工知能(AI)の進化は、LMM(Large Language Models)とLMM(Large Multimodal Models)の進歩によって著しく加速され、問題解決と科学的発見(AI4Science)における潜在的な認知的推論能力を示すようになった。
認知的推論能力における現在のモデルの性能を包括的に評価するために,11,163のバイリンガル問題を含むオリンピックアレーナを導入する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
オリンピック競技問題の課題は、複雑な科学的課題に対処し発見を促進するために不可欠である、その複雑さと学際的な性質から、AIの認知的推論を評価するのに理想的である、と我々は主張する。
回答のみの基準を用いて様々な分野のパフォーマンスを評価するだけでなく、複数の観点から詳細な実験と分析を行う。
我々は、モデルの認知的推論能力、異なるモダリティをまたいだパフォーマンス、プロセスレベルの評価の結果を掘り下げる。
我々の広範な評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%にしか達していない。
オリンピックアリーナを通じて、私たちはAIを超知性に向けて前進させ、科学やそれ以上の複雑な課題に対処することを目指しています。
ベンチマークデータセット、オープンソースのアノテーションプラットフォーム、詳細な評価ツール、自動提出機能を備えたリーダボードなど、AI研究をサポートするための包括的なリソースセットも提供しています。
関連論文リスト
- Artificial Intelligence for Collective Intelligence: A National-Scale Research Strategy [7.644091133650435]
医療、金融、インフラ、持続可能性の課題は、すべて、全国規模の集団インテリジェンスにAIを活用することで、生産的に解決される可能性がある。
この種のAIの開発と展開は、技術と社会技術の両方において、独特な課題に直面している。
ここでは、これらの課題に対処するために学際的な研究を動員するための研究戦略を詳述し、直面するべき課題のいくつかを概説する。
論文 参考訳(メタデータ) (2024-11-09T15:25:43Z) - Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA [43.116608441891096]
人間は知識に基づく帰納的、概念的推論においてAIシステムより優れています。
GPT-4やLLaMAのような最先端のLLMは、ターゲット情報検索において優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-09T03:53:26Z) - Evaluation of OpenAI o1: Opportunities and Challenges of AGI [112.0812059747033]
o1-previewは目覚ましい能力を示し、しばしば人間レベルまたは優れたパフォーマンスを実現した。
このモデルは、様々な分野にわたる複雑な推論と知識の統合を必要とするタスクに優れていた。
総合的な結果は、人工知能への大きな進歩を示している。
論文 参考訳(メタデータ) (2024-09-27T06:57:00Z) - Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI [129.08019405056262]
人工知能(Embodied AI)は、人工知能(AGI)の実現に不可欠である
MLMとWMは、その顕著な知覚、相互作用、推論能力のために、大きな注目を集めている。
本調査では,Embodied AIの最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-07-09T14:14:47Z) - Applications of Explainable artificial intelligence in Earth system science [12.454478986296152]
このレビューは、説明可能なAI(XAI)の基礎的な理解を提供することを目的としている。
XAIはモデルをより透明にする強力なツールセットを提供する。
我々は、地球系科学(ESS)において、XAIが直面する4つの重要な課題を識別する。
AIモデルは未知を探索し、XAIは説明を提供することでギャップを埋める。
論文 参考訳(メタデータ) (2024-06-12T15:05:29Z) - DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - Artificial Intelligence for Science in Quantum, Atomistic, and Continuum Systems [268.585904751315]
科学のためのAI(AI4Science)として知られる新しい研究領域
領域は、物理世界(波動関数と電子密度)、原子(分子、タンパク質、物質、相互作用)、マクロ(流体、気候、地下)まで理解することを目的としている。
主要な課題は、物理第一原理、特に対称性を深層学習法によって自然システムで捉える方法である。
論文 参考訳(メタデータ) (2023-07-17T12:14:14Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Explainable Artificial Intelligence Approaches: A Survey [0.22940141855172028]
人工知能ベースの「ブラックボックス」システム/モデルからの決定の説明力の欠如は、ハイステークアプリケーションでAIを採用するための重要な障害です。
相互ケーススタディ/タスクにより、一般的なXAI(Explainable Artificial Intelligence)手法を実証します。
競争優位性を多角的に分析します。
我々はXAIを媒体として、責任や人間中心のAIへの道を推奨する。
論文 参考訳(メタデータ) (2021-01-23T06:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。