Fugu-MT 論文翻訳(概要): GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks

論文の概要: GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks

arxiv url: http://arxiv.org/abs/2510.04374v1
Date: Sun, 05 Oct 2025 21:36:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 16:52:59.613387
Title: GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks
Title（参考訳）: GDPval: 実世界の経済的に価値のあるタスクでAIモデルのパフォーマンスを評価する
Authors: Tejal Patwardhan, Rachel Dias, Elizabeth Proehl, Grace Kim, Michele Wang, Olivia Watkins, Simón Posada Fishman, Marwan Aljubeh, Phoebe Thacker, Laurance Fauconnet, Natalie S. Kim, Patrick Chao, Samuel Miserendino, Gildas Chabot, David Li, Michael Sharman, Alexandra Barr, Amelia Glaese, Jerry Tworek,
Abstract要約: GDPvalは、実世界の経済的に価値のあるタスクでAI能力を評価するベンチマークである。 GDPvalは、米国労働統計局(U.S. Bureau of Labor Statistics Work Activity)の大多数をカバーしている。我々は、人間の監視と組み合わせることで、フロンティアモデルの可能性を分析し、知らない専門家よりもGDPvalタスクを安価かつ高速に実行します。
参考スコア（独自算出の注目度）: 34.63352957472507
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce GDPval, a benchmark evaluating AI model capabilities on real-world economically valuable tasks. GDPval covers the majority of U.S. Bureau of Labor Statistics Work Activities for 44 occupations across the top 9 sectors contributing to U.S. GDP (Gross Domestic Product). Tasks are constructed from the representative work of industry professionals with an average of 14 years of experience. We find that frontier model performance on GDPval is improving roughly linearly over time, and that the current best frontier models are approaching industry experts in deliverable quality. We analyze the potential for frontier models, when paired with human oversight, to perform GDPval tasks cheaper and faster than unaided experts. We also demonstrate that increased reasoning effort, increased task context, and increased scaffolding improves model performance on GDPval. Finally, we open-source a gold subset of 220 tasks and provide a public automated grading service at evals.openai.com to facilitate future research in understanding real-world model capabilities.
Abstract（参考訳）: GDPvalは、実世界の経済的に価値のあるタスクでAIモデル能力を評価するベンチマークである。 GDPvalは、米国労働統計局(U.S. Bureau of Labor Statistics Work Activity)の大多数をカバーし、米国のGDP(Gross Domestic Product)に寄与している。タスクは、平均14年の経験を持つ業界専門家の代表的な作業から構築されます。 GDPvalにおけるフロンティアモデルのパフォーマンスは、時間とともにほぼ直線的に改善されており、現在の最高のフロンティアモデルが、デリバリ可能な品質で業界の専門家にアプローチしていることに気付きました。我々は、人間の監視と組み合わせることで、フロンティアモデルの可能性を分析し、知らない専門家よりもGDPvalタスクを安価かつ高速に実行します。また、推論の労力の増加、タスクコンテキストの増加、足場の増加によりGDPvalのモデル性能が向上することを示した。最後に、220タスクのゴールドサブセットをオープンソースとして公開し、evals.openai.comで公開の自動グレーティングサービスを提供し、現実世界のモデル機能を理解するための将来の研究を促進する。

関連論文リスト

How Well Does Agent Development Reflect Real-World Work? [89.17217057358285]
本研究では,ベンチマークインスタンスを作業領域やスキルにマッピングすることで,エージェント開発活動と実世界の人間作業の分布との関係について検討する。プログラム中心のエージェント開発と、人間の労働力と経済価値が集中するカテゴリの間には、かなりのミスマッチがあることを明らかにする。
論文参考訳（メタデータ） (2026-03-01T17:55:49Z)
WorldArena: A Unified Benchmark for Evaluating Perception and Functional Utility of Embodied World Models [114.95269118652163]
We introduced WorldArena, an unified benchmark designed for embodied world model across both perceptual and functional dimensions。 WorldArenaは、6つのサブ次元にまたがって16のメトリクスで測定されたビデオ知覚品質、データエンジンとして世界モデルを評価する実施されたタスク機能、ポリシー評価ツール、主観的な人間の評価と統合されたアクションプランナーの3つの次元でモデルを評価する。 14の代表的なモデルに対する広範囲な実験を通して、視覚的品質が必ずしも強い具体的タスク能力に変換されるとは限らないことを示す、重要な知覚-機能的ギャップを明らかにする。
論文参考訳（メタデータ） (2026-02-09T18:09:20Z)
Tendem: A Hybrid AI+Human Platform [3.9177738683910537]
Tendemは、AIが構造化された繰り返し作業を処理するハイブリッドシステムであり、モデルが失敗したり、結果を検証する場合に、ヒューマンエキスパートがステップインする。テネデムの性能を評価するため,94個の実世界のタスクについて,室内での一連の評価を行った。
論文参考訳（メタデータ） (2026-02-01T09:37:16Z)
AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts [35.52607495764441]
大規模言語モデル(LLM)に基づく自律エージェントは、経済的生産に大きく貢献する多面的能力を示す。我々は、毎日のAI使用から派生したベンチマークであるAgentBenchを紹介し、32の現実シナリオにわたる6つのコアエージェント能力を評価した。これらのシナリオでは、平均90のツールコール、100万のトークン、解決に必要な実行時間が必要です。
論文参考訳（メタデータ） (2026-01-16T07:22:20Z)
Scaling Laws for Economic Productivity: Experimental Evidence in LLM-Assisted Consulting, Data Analyst, and Management Tasks [0.0]
AIモデルの進歩は毎年、タスクタイムを8%削減しています。非エージェント分析では生産性が有意に向上した。これらの結果は、継続したモデルスケーリングが今後10年間で米国の生産性を約20%向上させることを示唆している。
論文参考訳（メタデータ） (2025-12-24T18:24:29Z)
UpBench: A Dynamically Evolving Real-World Labor-Market Agentic Benchmark Framework Built for Human-Centric AI [2.0619484032730813]
UpBenchは、グローバルなUpworkの労働市場から引き出された実際の仕事に関するベンチマークだ。各タスクは検証されたクライアントトランザクションに対応し、実際の作業活動と財務成果の評価をアンロックする。 UpBenchはルーリックベースの評価フレームワークを採用しており、専門家フリーランサーは各ジョブを詳細かつ検証可能な受け入れ基準に分解し、基準ごとのフィードバックでAI申請を評価する。
論文参考訳（メタデータ） (2025-11-15T17:39:37Z)
The AI Productivity Index (APEX) [4.122962658725304]
我々は、フロンティアAIモデルが高い経済価値で知識労働を行うことができるかどうかを評価するベンチマークであるAI生産性指数(APEX)の最初のバージョンを紹介する。 APEX-v1.0は200のテストケースを含み、投資銀行、マネジメントコンサルティング、法律、プライマリ医療の4つの領域をカバーする。 GPT 5 (Thinking = High) は最高スコア (64.2%) を獲得し、Grok 4 (61.3%) と Gemini 2.5 Flash (Thinking = On) (60.4%) が続く。
論文参考訳（メタデータ） (2025-09-30T03:26:17Z)
FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文参考訳（メタデータ） (2025-05-26T08:21:46Z)
Sustainability via LLM Right-sizing [21.17523328451591]
大規模言語モデル(LLM)はますます組織に組み込まれている。本研究は,10の日常業務において,プロプライエタリでオープンウェイトなLDMを11個評価することによって,実証的な回答を提供する。その結果, GPT-4oは高い性能を保ちながら, コストと環境のフットプリントが著しく高いことがわかった。
論文参考訳（メタデータ） (2025-04-17T04:00:40Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Large Language Models at Work in China's Labor Market [3.9145097124275257]
本稿では,中国労働市場における大規模言語モデル(LLM)の潜在的影響について考察する。その結果,職業曝露と賃金水準と職業水準での体験料との間には正の相関があることが示唆された。そして、産業レベルでの職業的露出を集約し、工業的露出スコアを得る。
論文参考訳（メタデータ） (2023-08-17T04:20:36Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。