論文の概要: OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?
- arxiv url: http://arxiv.org/abs/2406.16772v2
- Date: Wed, 26 Jun 2024 15:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 17:56:11.807614
- Title: OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?
- Title(参考訳): 五輪アリーナのメダルランキング:最も知能なAIは誰だ?
- Authors: Zhen Huang, Zengzhi Wang, Shijie Xia, Pengfei Liu,
- Abstract要約: 我々は、最近リリースされたClaude-3.5-Sonnet、Gemini-1.5-Pro、GPT-4oに焦点を当てている。
本稿では,各種分野にわたる総合的なパフォーマンスに基づいて,初めてオリンピック・メダリスト・テーブルを用いてAIモデルをランク付けする手法を提案する。
- 参考スコア(独自算出の注目度): 24.715301961641657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we pose the following question: Who is the most intelligent AI model to date, as measured by the OlympicArena (an Olympic-level, multi-discipline, multi-modal benchmark for superintelligent AI)? We specifically focus on the most recently released models: Claude-3.5-Sonnet, Gemini-1.5-Pro, and GPT-4o. For the first time, we propose using an Olympic medal Table approach to rank AI models based on their comprehensive performance across various disciplines. Empirical results reveal: (1) Claude-3.5-Sonnet shows highly competitive overall performance over GPT-4o, even surpassing GPT-4o on a few subjects (i.e., Physics, Chemistry, and Biology). (2) Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and Claude-3.5-Sonnet, but with a clear performance gap between them. (3) The performance of AI models from the open-source community significantly lags behind these proprietary models. (4) The performance of these models on this benchmark has been less than satisfactory, indicating that we still have a long way to go before achieving superintelligence. We remain committed to continuously tracking and evaluating the performance of the latest powerful models on this benchmark (available at https://github.com/GAIR-NLP/OlympicArena).
- Abstract(参考訳): オリンピックアリーナ(オリンピックレベル、多分野、超知能AIのマルチモーダルベンチマーク)によって測定された、これまでで最もインテリジェントなAIモデルは誰ですか?
具体的には、最近リリースされたClaude-3.5-Sonnet、Gemini-1.5-Pro、GPT-4oに焦点を当てます。
本稿では,各種分野にわたる総合的なパフォーマンスに基づいて,初めてオリンピック・メダリスト・テーブルを用いてAIモデルをランク付けする手法を提案する。
1)Claude-3.5-SonnetはGPT-4oよりも高い総合的な性能を示し、少数の被験者(物理, 化学, 生物学)でGPT-4oを上回った。
2) Gemini-1.5-Pro と GPT-4V は GPT-4o と Claude-3.5-Sonnet のすぐ後ろで連続的にランクされるが、その間には明らかな性能差がある。
(3) オープンソースコミュニティのAIモデルのパフォーマンスは、これらのプロプライエタリなモデルに大きく遅れています。
(4) このベンチマークにおけるこれらのモデルの性能は満足度に欠けており、超知能を達成するまでにはまだ長い道のりが残っていることを示唆している。
このベンチマークでは、最新の強力なモデルのパフォーマンスを継続的に追跡し、評価することを約束しています(https://github.com/GAIR-NLP/OlympicArena.comで利用可能です)。
関連論文リスト
- OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - GenAI Arena: An Open Evaluation Platform for Generative Models [33.246432399321826]
本稿では,異なる画像および映像生成モデルを評価するためのオープンプラットフォームGenAI-Arenaを提案する。
GenAI-Arenaは、より民主的で正確なモデルパフォーマンスの指標を提供することを目指している。
テキスト・ツー・イメージ・ジェネレーション、テキスト・ツー・ビデオ・ジェネレーション、画像編集の3つのタスクをカバーしている。
論文 参考訳(メタデータ) (2024-06-06T20:15:42Z) - ArchesWeather: An efficient AI weather forecasting model at 1.5° resolution [12.404004942884523]
そこで,Pangu-Weatherの3次元局所処理は計算的に準最適であることを示す。
2次元アテンションとカラムワイズアテンションに基づく特徴相互作用モジュールを組み合わせたトランスフォーマーモデルArchesWeatherを設計する。
ArchesWeatherは1.5degの解像度と24hのリードタイムでトレーニングされている。
論文 参考訳(メタデータ) (2024-05-23T13:11:49Z) - Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models [69.35758259895259]
Rekaモデルはテキスト、画像、ビデオ、オーディオ入力で処理し、推論することができる。
Reka EdgeとReka Flashは最先端のモデルであるだけでなく、多くの大きなモデルよりも優れています。
最も有能で最大のモデルであるReka Coreは、自動評価と盲人評価の両方において、最高のフロンティアモデルにアプローチしています。
論文 参考訳(メタデータ) (2024-04-18T17:59:48Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z) - Orca: Progressive Learning from Complex Explanation Traces of GPT-4 [22.526048553548726]
我々は, LFMの推論過程を模倣する13ビリオンパラメータモデルOrcaを開発した。
Orcaは、説明トレース、ステップバイステップの思考プロセス、その他の複雑な命令を含む、GPT-4から豊富な信号から学習する。
Orcaは、複雑なゼロショット推論ベンチマークにおいて、Vicuna-13Bのような最先端の命令チューニングモデルを100%以上上回る。
論文 参考訳(メタデータ) (2023-06-05T08:58:39Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z) - Is the Most Accurate AI the Best Teammate? Optimizing AI for Teamwork [54.309495231017344]
AIシステムは人間中心の方法でトレーニングされ、チームのパフォーマンスに直接最適化されるべきである、と私たちは主張する。
我々は,AIレコメンデーションを受け入れるか,あるいはタスク自体を解決するかを選択する,特定のタイプのAIチームを提案する。
実世界の高精度データセット上での線形モデルと非線形モデルによる実験は、AIが最も正確であることは、最高のチームパフォーマンスに繋がらないことを示している。
論文 参考訳(メタデータ) (2020-04-27T19:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。