論文の概要: The AI Productivity Index (APEX)
- arxiv url: http://arxiv.org/abs/2509.25721v2
- Date: Thu, 02 Oct 2025 05:47:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 12:04:55.865891
- Title: The AI Productivity Index (APEX)
- Title(参考訳): AI生産性指標(APEX)
- Authors: Bertie Vidgen, Abby Fennelly, Evan Pinnix, Chirag Mahapatra, Zach Richards, Austin Bridges, Calix Huang, Ben Hunsberger, Fez Zafar, Brendan Foody, Dominic Barton, Cass R. Sunstein, Eric Topol, Osvald Nitski,
- Abstract要約: 我々は、フロンティアAIモデルが高い経済価値で知識労働を行うことができるかどうかを評価するベンチマークであるAI生産性指数(APEX)の最初のバージョンを紹介する。
APEX-v1.0は200のテストケースを含み、投資銀行、マネジメントコンサルティング、法律、プライマリ医療の4つの領域をカバーする。
GPT 5 (Thinking = High) は最高スコア (64.2%) を獲得し、Grok 4 (61.3%) と Gemini 2.5 Flash (Thinking = On) (60.4%) が続く。
- 参考スコア(独自算出の注目度): 4.122962658725304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the first version of the AI Productivity Index (APEX), a benchmark for assessing whether frontier AI models can perform knowledge work with high economic value. APEX addresses one of the largest inefficiencies in AI research: outside of coding, benchmarks often fail to test economically relevant capabilities. APEX-v1.0 contains 200 test cases and covers four domains: investment banking, management consulting, law, and primary medical care. It was built in three steps. First, we sourced experts with top-tier experience e.g., investment bankers from Goldman Sachs. Second, experts created prompts that reflect high-value tasks in their day-to-day work. Third, experts created rubrics for evaluating model responses. We evaluate 23 frontier models on APEX-v1.0 using an LM judge. GPT 5 (Thinking = High) achieves the highest mean score (64.2%), followed by Grok 4 (61.3%) and Gemini 2.5 Flash (Thinking = On) (60.4%). Qwen 3 235B is the best performing open-source model and seventh best overall. There is a large gap between the performance of even the best models and human experts, highlighting the need for better measurement of models' ability to produce economically valuable work.
- Abstract(参考訳): 我々は、フロンティアAIモデルが高い経済価値で知識労働を行うことができるかどうかを評価するベンチマークであるAI生産性指数(APEX)の最初のバージョンを紹介する。
APEXはAI研究における最大の非効率の1つに対処している。
APEX-v1.0は200のテストケースを含み、投資銀行、マネジメントコンサルティング、法律、プライマリ医療の4つの領域をカバーする。
3つのステップで構築された。
まず、ゴールドマン・サックスの投資銀行家など、トップレベルの経験を持つ専門家を引用した。
第2に、専門家は日々の作業で高価値なタスクを反映するプロンプトを作成しました。
第3に、専門家はモデル応答を評価するためにルーブリックを作成しました。
LM判定器を用いてAPEX-v1.0のフロンティアモデル23の評価を行った。
GPT 5 (Thinking = High) は最高スコア (64.2%) を獲得し、Grok 4 (61.3%) と Gemini 2.5 Flash (Thinking = On) (60.4%) が続く。
Qwen 3 235Bは、最も優れたオープンソースモデルであり、全体として7番目である。
最高のモデルと人間の専門家のパフォーマンスの間には大きなギャップがあり、経済的に価値のある仕事を生み出すためのモデルの能力のより良い測定の必要性を強調している。
関連論文リスト
- Predicting Empirical AI Research Outcomes with Language Models [27.148683265085012]
AI研究における有望なアイデアの多くは提供されないが、その検証には相当な人的労力と計算が必要だ。
このタスクの最初のベンチマークを構築し、LMと人間の専門家を比較します。
私たちはカンファレンス論文からアイデアと実験結果を取り除き、ベースモデルがテストの切り離し日後に公表された1,585人の人間による検証されたアイデアペアを生成しました。
我々は,精巧なGPT-4.1と紙検索エージェントを組み合わせたシステムを開発し,25人の人間専門家を雇って比較する。
NLP領域では、我々のシステムは人間の専門家を64.4%対48.で破る。
論文 参考訳(メタデータ) (2025-06-01T02:46:31Z) - VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在の評価方法は、主に従来のタスクからのAIアノテーション付き好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z) - Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts [4.06186944042499]
7つの挑戦的でオープンなMLリサーチエンジニアリング環境と、61人の専門家による71の8時間の試みのデータで構成されるRE-Benchを紹介します。
最高のAIエージェントは、環境当たりの合計時間予算が2時間与えられたとき、人間の専門家よりも4倍高いスコアを得る。
現在、人間は時間予算の増加に対してより良いリターンを示しており、8時間予算で上位AIエージェントのスコアをわずかに上回り、合計32時間(異なる試み)で上位AIエージェントのスコアを2倍にしている。
論文 参考訳(メタデータ) (2024-11-22T18:30:46Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation [38.076276626337766]
MMEvalProは、トリロジー評価パイプラインとより厳格なメトリクスを通じて、Type-Iエラーを避けるために設計されたベンチマークである。
MMEvalProには2,138ドルの質問用三つ子があり、合計6,414ドルの質問がある。
既存のベンチマークと比較すると、最新のLLMとLMMによる実験では、MMEvalProの方が難しいことが示されています。
論文 参考訳(メタデータ) (2024-06-29T15:28:45Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Professional Certification Benchmark Dataset: The First 500 Jobs For
Large Language Models [0.0]
この調査は、大規模な言語モデルをテストし、採用可能なスキルを評価するための専門的な認定調査を作成する。
GPT-3とTurbo-GPT3.5の2つのAIモデルのパフォーマンスを、1149のプロフェッショナル認定のベンチマークデータセットで比較する。
論文 参考訳(メタデータ) (2023-05-07T00:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。