論文の概要: GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks
- arxiv url: http://arxiv.org/abs/2510.04374v1
- Date: Sun, 05 Oct 2025 21:36:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.613387
- Title: GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks
- Title(参考訳): GDPval: 実世界の経済的に価値のあるタスクでAIモデルのパフォーマンスを評価する
- Authors: Tejal Patwardhan, Rachel Dias, Elizabeth Proehl, Grace Kim, Michele Wang, Olivia Watkins, Simón Posada Fishman, Marwan Aljubeh, Phoebe Thacker, Laurance Fauconnet, Natalie S. Kim, Patrick Chao, Samuel Miserendino, Gildas Chabot, David Li, Michael Sharman, Alexandra Barr, Amelia Glaese, Jerry Tworek,
- Abstract要約: GDPvalは、実世界の経済的に価値のあるタスクでAI能力を評価するベンチマークである。
GDPvalは、米国労働統計局(U.S. Bureau of Labor Statistics Work Activity)の大多数をカバーしている。
我々は、人間の監視と組み合わせることで、フロンティアモデルの可能性を分析し、知らない専門家よりもGDPvalタスクを安価かつ高速に実行します。
- 参考スコア(独自算出の注目度): 34.63352957472507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce GDPval, a benchmark evaluating AI model capabilities on real-world economically valuable tasks. GDPval covers the majority of U.S. Bureau of Labor Statistics Work Activities for 44 occupations across the top 9 sectors contributing to U.S. GDP (Gross Domestic Product). Tasks are constructed from the representative work of industry professionals with an average of 14 years of experience. We find that frontier model performance on GDPval is improving roughly linearly over time, and that the current best frontier models are approaching industry experts in deliverable quality. We analyze the potential for frontier models, when paired with human oversight, to perform GDPval tasks cheaper and faster than unaided experts. We also demonstrate that increased reasoning effort, increased task context, and increased scaffolding improves model performance on GDPval. Finally, we open-source a gold subset of 220 tasks and provide a public automated grading service at evals.openai.com to facilitate future research in understanding real-world model capabilities.
- Abstract(参考訳): GDPvalは、実世界の経済的に価値のあるタスクでAIモデル能力を評価するベンチマークである。
GDPvalは、米国労働統計局(U.S. Bureau of Labor Statistics Work Activity)の大多数をカバーし、米国のGDP(Gross Domestic Product)に寄与している。
タスクは、平均14年の経験を持つ業界専門家の代表的な作業から構築されます。
GDPvalにおけるフロンティアモデルのパフォーマンスは、時間とともにほぼ直線的に改善されており、現在の最高のフロンティアモデルが、デリバリ可能な品質で業界の専門家にアプローチしていることに気付きました。
我々は、人間の監視と組み合わせることで、フロンティアモデルの可能性を分析し、知らない専門家よりもGDPvalタスクを安価かつ高速に実行します。
また、推論の労力の増加、タスクコンテキストの増加、足場の増加によりGDPvalのモデル性能が向上することを示した。
最後に、220タスクのゴールドサブセットをオープンソースとして公開し、evals.openai.comで公開の自動グレーティングサービスを提供し、現実世界のモデル機能を理解するための将来の研究を促進する。
関連論文リスト
- The AI Productivity Index (APEX) [4.122962658725304]
我々は、フロンティアAIモデルが高い経済価値で知識労働を行うことができるかどうかを評価するベンチマークであるAI生産性指数(APEX)の最初のバージョンを紹介する。
APEX-v1.0は200のテストケースを含み、投資銀行、マネジメントコンサルティング、法律、プライマリ医療の4つの領域をカバーする。
GPT 5 (Thinking = High) は最高スコア (64.2%) を獲得し、Grok 4 (61.3%) と Gemini 2.5 Flash (Thinking = On) (60.4%) が続く。
論文 参考訳(メタデータ) (2025-09-30T03:26:17Z) - FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z) - Sustainability via LLM Right-sizing [21.17523328451591]
大規模言語モデル(LLM)はますます組織に組み込まれている。
本研究は,10の日常業務において,プロプライエタリでオープンウェイトなLDMを11個評価することによって,実証的な回答を提供する。
その結果, GPT-4oは高い性能を保ちながら, コストと環境のフットプリントが著しく高いことがわかった。
論文 参考訳(メタデータ) (2025-04-17T04:00:40Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Large Language Models at Work in China's Labor Market [3.9145097124275257]
本稿では,中国労働市場における大規模言語モデル(LLM)の潜在的影響について考察する。
その結果,職業曝露と賃金水準と職業水準での体験料との間には正の相関があることが示唆された。
そして、産業レベルでの職業的露出を集約し、工業的露出スコアを得る。
論文 参考訳(メタデータ) (2023-08-17T04:20:36Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。