Fugu-MT 論文翻訳(概要): OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?

論文の概要: OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?

arxiv url: http://arxiv.org/abs/2406.16772v1
Date: Mon, 24 Jun 2024 16:31:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 14:05:36.904930
Title: OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?
Title（参考訳）: 五輪アリーナのメダルランキング:最も知能なAIは誰だ?
Authors: Zhen Huang, Zengzhi Wang, Shijie Xia, Pengfei Liu,
Abstract要約: 我々は、最近リリースされたClaude-3.5-Sonnet、Gemini-1.5-Pro、GPT-4oに焦点を当てている。本稿では,各種分野にわたる総合的なパフォーマンスに基づいて,初めてオリンピック・メダリスト・テーブルを用いてAIモデルをランク付けする手法を提案する。
参考スコア（独自算出の注目度）: 24.715301961641657
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this report, we pose the following question: Who is the most intelligent AI model to date, as measured by the OlympicArena (an Olympic-level, multi-discipline, multi-modal benchmark for superintelligent AI)? We specifically focus on the most recently released models: Claude-3.5-Sonnet, Gemini-1.5-Pro, and GPT-4o. For the first time, we propose using an Olympic medal Table approach to rank AI models based on their comprehensive performance across various disciplines. Empirical results reveal: (1) Claude-3.5-Sonnet shows highly competitive overall performance over GPT-4o, even surpassing GPT-4o on a few subjects (i.e., Physics, Chemistry, and Biology). (2) Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and Claude-3.5-Sonnet, but with a clear performance gap between them. (3) The performance of AI models from the open-source community significantly lags behind these proprietary models. (4) The performance of these models on this benchmark has been less than satisfactory, indicating that we still have a long way to go before achieving superintelligence. We remain committed to continuously tracking and evaluating the performance of the latest powerful models on this benchmark (available at https://github.com/GAIR-NLP/OlympicArena).
Abstract（参考訳）: オリンピックアリーナ(オリンピックレベル、多分野、超知能AIのマルチモーダルベンチマーク)によって測定された、これまでで最もインテリジェントなAIモデルは誰ですか? 具体的には、最近リリースされたClaude-3.5-Sonnet、Gemini-1.5-Pro、GPT-4oに焦点を当てます。本稿では,各種分野にわたる総合的なパフォーマンスに基づいて,初めてオリンピック・メダリスト・テーブルを用いてAIモデルをランク付けする手法を提案する。 1)Claude-3.5-SonnetはGPT-4oよりも高い総合的な性能を示し、少数の被験者(物理, 化学, 生物学)でGPT-4oを上回った。 2) Gemini-1.5-Pro と GPT-4V は GPT-4o と Claude-3.5-Sonnet のすぐ後ろで連続的にランクされるが、その間には明らかな性能差がある。 (3) オープンソースコミュニティのAIモデルのパフォーマンスは、これらのプロプライエタリなモデルに大きく遅れています。 (4) このベンチマークにおけるこれらのモデルの性能は満足度に欠けており、超知能を達成するまでにはまだ長い道のりが残っていることを示唆している。このベンチマークでは、最新の強力なモデルのパフォーマンスを継続的に追跡し、評価することを約束しています(https://github.com/GAIR-NLP/OlympicArena.comで利用可能です)。

関連論文リスト

PhysicsMinions: Winning Gold Medals in the Latest Physics Olympiads with a Coevolutionary Multimodal Multi-Agent System [65.02248709992442]
物理は現実世界の理解と形成の中心であり、物理問題を解く能力は現実世界の物理知能の重要な指標である。既存のアプローチは主にシングルモデルベースであり、オープンソースのMLLMはゴールドメディカルレベルのパフォーマンスに達することは滅多にない。我々は,物理オリンピアードの共進化的マルチエージェントシステムであるPhysorMinionsを提案する。アーキテクチャには、ダイアグラムを解釈するVisual Studio、ソリューションを定式化するLogic Studio、デュアルステージ検証を実行するReview Studioの3つのシナジスティックスタジオがある。
論文参考訳（メタデータ） (2025-09-29T14:40:53Z)
HiPhO: How Far Are (M)LLMs from Humans in the Latest High School Physics Olympiad Benchmark? [53.76627321546095]
HiPhOは、人間による評価を備えた、高校の物理学オリンピアードのための最初のベンチマークである。 2024年から2025年にかけて13回のオリンピアード試験をコンパイルし、国際大会と地域競技の両方にまたがる。我々は、(M)LLMとヒトの競技者との直接比較を可能にするため、公式メダル閾値に基づくモデルに金、銀、銅のメダルを割り当てる。
論文参考訳（メタデータ） (2025-09-09T16:24:51Z)
Winning Gold at IMO 2025 with a Model-Agnostic Verification-and-Refinement Pipeline [10.177917426690703]
大規模な言語モデルは、しばしばオリンピアードレベルの問題と競合する。我々は,モデルに依存しない検証・修正パイプラインを構築した。 IMO 2025において、その効果を実証した。
論文参考訳（メタデータ） (2025-07-21T17:59:49Z)
Enhancing Selection of Climate Tech Startups with AI -- A Case Study on Integrating Human and AI Evaluations in the ClimaTech Great Global Innovation Challenge [41.94295877935867]
ClimaTechのコンペティションは、トップクラスの気候テックスタートアップを見つけることを目的としている。この手法には、初期AIレビュー、人間によって判断される準決勝、ハイブリッド重み付けを用いた決勝という3つのフェーズが含まれていた。決勝では5人の審査員が参加し、重み付けは83.3%、AIは16.7%に移行した。
論文参考訳（メタデータ） (2025-05-27T02:23:03Z)
How Well Can AI Build SD Models? [0.0]
本稿では,AI生成因果写像の評価のための2つの指標について紹介する。我々は,11種類のLDMを,因果翻訳の能力とユーザの指示に適合する能力で試験した。
論文参考訳（メタデータ） (2025-03-19T14:48:47Z)
Competitive Programming with Large Reasoning Models [73.7455809592467]
大規模言語モデル(LLM)に適用した強化学習は、複雑なコーディングや推論タスクの性能を大幅に向上させることを示す。 OpenAI o1 と初期チェックポイント o3 の2つの汎用推論モデルとドメイン固有のシステム o1-ioi を比較した。以上の結果から,o1-ioiなどの特殊なパイプラインでは,手作りの推論に頼らずに,スケールアップされた汎用o3モデルがこれらの結果を上回っていることが明らかとなった。
論文参考訳（メタデータ） (2025-02-03T23:00:15Z)
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文参考訳（メタデータ） (2024-06-18T16:20:53Z)
GenAI Arena: An Open Evaluation Platform for Generative Models [33.246432399321826]
本稿では,異なる画像および映像生成モデルを評価するためのオープンプラットフォームGenAI-Arenaを提案する。 GenAI-Arenaは、より民主的で正確なモデルパフォーマンスの指標を提供することを目指している。テキスト・ツー・イメージ・ジェネレーション、テキスト・ツー・ビデオ・ジェネレーション、画像編集の3つのタスクをカバーしている。
論文参考訳（メタデータ） (2024-06-06T20:15:42Z)
ArchesWeather: An efficient AI weather forecasting model at 1.5° resolution [12.404004942884523]
そこで,Pangu-Weatherの3次元局所処理は計算的に準最適であることを示す。 2次元アテンションとカラムワイズアテンションに基づく特徴相互作用モジュールを組み合わせたトランスフォーマーモデルArchesWeatherを設計する。 ArchesWeatherは1.5degの解像度と24hのリードタイムでトレーニングされている。
論文参考訳（メタデータ） (2024-05-23T13:11:49Z)
Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models [69.35758259895259]
Rekaモデルはテキスト、画像、ビデオ、オーディオ入力で処理し、推論することができる。 Reka EdgeとReka Flashは最先端のモデルであるだけでなく、多くの大きなモデルよりも優れています。最も有能で最大のモデルであるReka Coreは、自動評価と盲人評価の両方において、最高のフロンティアモデルにアプローチしています。
論文参考訳（メタデータ） (2024-04-18T17:59:48Z)
OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。 GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文参考訳（メタデータ） (2024-02-21T18:49:26Z)
Orca: Progressive Learning from Complex Explanation Traces of GPT-4 [22.526048553548726]
我々は, LFMの推論過程を模倣する13ビリオンパラメータモデルOrcaを開発した。 Orcaは、説明トレース、ステップバイステップの思考プロセス、その他の複雑な命令を含む、GPT-4から豊富な信号から学習する。 Orcaは、複雑なゼロショット推論ベンチマークにおいて、Vicuna-13Bのような最先端の命令チューニングモデルを100%以上上回る。
論文参考訳（メタデータ） (2023-06-05T08:58:39Z)
Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (2023-03-22T16:51:28Z)
CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文参考訳（メタデータ） (2022-01-14T06:49:15Z)
Is the Most Accurate AI the Best Teammate? Optimizing AI for Teamwork [54.309495231017344]
AIシステムは人間中心の方法でトレーニングされ、チームのパフォーマンスに直接最適化されるべきである、と私たちは主張する。我々は,AIレコメンデーションを受け入れるか,あるいはタスク自体を解決するかを選択する,特定のタイプのAIチームを提案する。実世界の高精度データセット上での線形モデルと非線形モデルによる実験は、AIが最も正確であることは、最高のチームパフォーマンスに繋がらないことを示している。
論文参考訳（メタデータ） (2020-04-27T19:06:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。