論文の概要: How Well Does Agent Development Reflect Real-World Work?
- arxiv url: http://arxiv.org/abs/2603.01203v1
- Date: Sun, 01 Mar 2026 17:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.563972
- Title: How Well Does Agent Development Reflect Real-World Work?
- Title(参考訳): エージェント開発は現実世界の作業をどのように反映するか?
- Authors: Zora Zhiruo Wang, Sanidhya Vijayvargiya, Aspen Chen, Hanmo Zhang, Venu Arvind Arangarajan, Jett Chen, Valerie Chen, Diyi Yang, Daniel Fried, Graham Neubig,
- Abstract要約: 本研究では,ベンチマークインスタンスを作業領域やスキルにマッピングすることで,エージェント開発活動と実世界の人間作業の分布との関係について検討する。
プログラム中心のエージェント開発と、人間の労働力と経済価値が集中するカテゴリの間には、かなりのミスマッチがあることを明らかにする。
- 参考スコア(独自算出の注目度): 89.17217057358285
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: AI agents are increasingly developed and evaluated on benchmarks relevant to human work, yet it remains unclear how representative these benchmarking efforts are of the labor market as a whole. In this work, we systematically study the relationship between agent development efforts and the distribution of real-world human work by mapping benchmark instances to work domains and skills. We first analyze 43 benchmarks and 72,342 tasks, measuring their alignment with human employment and capital allocation across all 1,016 real-world occupations in the U.S. labor market. We reveal substantial mismatches between agent development that tends to be programming-centric, and the categories in which human labor and economic value are concentrated. Within work areas that agents currently target, we further characterize current agent utility by measuring their autonomy levels, providing practical guidance for agent interaction strategies across work scenarios. Building on these findings, we propose three measurable principles for designing benchmarks that better capture socially important and technically challenging forms of work: coverage, realism, and granular evaluation.
- Abstract(参考訳): AIエージェントは、人間の作業に関連するベンチマークで開発され、評価されているが、これらのベンチマークの取り組みが労働市場全体をどのように代表しているかは、まだ不明である。
本研究では,ベンチマークインスタンスを作業領域やスキルにマッピングすることで,エージェント開発活動と実世界のヒューマンワークの分布との関係を体系的に研究する。
われわれはまず43のベンチマークと72,342のタスクを分析し、米国の労働市場における1016の実際の職業における雇用と資本配分との整合性を測定した。
プログラム中心のエージェント開発と、人間の労働力と経済価値が集中するカテゴリの間には、かなりのミスマッチがあることを明らかにする。
エージェントが現在ターゲットとしている作業領域内では、エージェントの自律レベルを測定し、作業シナリオ全体にわたるエージェントインタラクション戦略の実践的なガイダンスを提供することにより、現在のエージェントユーティリティをさらに特徴付ける。
これらの知見に基づいて、我々は、社会的に重要で技術的に困難な作業形態(カバレッジ、リアリズム、粒度評価)をよりよく捉えたベンチマークを設計するための測定可能な3つの原則を提案する。
関連論文リスト
- Agentic Reasoning for Large Language Models [122.81018455095999]
推論は推論、問題解決、意思決定の基礎となる基本的な認知プロセスである。
大規模言語モデル(LLM)は、クローズドワールド設定では強力な推論能力を示すが、オープンエンドおよび動的環境では苦労する。
エージェント推論は、連続的な相互作用を計画し、行動し、学習する自律的なエージェントとしてLLMを解釈することでパラダイムシフトを示す。
論文 参考訳(メタデータ) (2026-01-18T18:58:23Z) - Evaluating Generalization Capabilities of LLM-Based Agents in Mixed-Motive Scenarios Using Concordia [100.74015791021044]
大規模言語モデル(LLM)エージェントは、社会的相互作用の素晴らしい能力を実証している。
既存の評価手法は、これらの能力がいかに新しい社会的状況に一般化するかを測ることに失敗する。
我々は,NeurIPS 2024 Concordia Contestで,エージェントが相互利得を達成する能力について評価した経験的結果を示す。
論文 参考訳(メタデータ) (2025-12-03T00:11:05Z) - Benchmarking LLM Agents for Wealth-Management Workflows [0.0]
この論文はTheAgentCompanyを金融に焦点を当てた環境に拡張している。
本研究は、汎用LLMエージェントが、精密かつ経済的に代表的富管理タスクを完了できるかどうかを調査する。
論文 参考訳(メタデータ) (2025-12-01T21:56:21Z) - UpBench: A Dynamically Evolving Real-World Labor-Market Agentic Benchmark Framework Built for Human-Centric AI [2.0619484032730813]
UpBenchは、グローバルなUpworkの労働市場から引き出された実際の仕事に関するベンチマークだ。
各タスクは検証されたクライアントトランザクションに対応し、実際の作業活動と財務成果の評価をアンロックする。
UpBenchはルーリックベースの評価フレームワークを採用しており、専門家フリーランサーは各ジョブを詳細かつ検証可能な受け入れ基準に分解し、基準ごとのフィードバックでAI申請を評価する。
論文 参考訳(メタデータ) (2025-11-15T17:39:37Z) - Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents [1.0305173936249623]
白書では、AIエージェントの成果に基づくタスク非依存のパフォーマンス指標11の新たなフレームワークを提案する。
本稿では、ゴール完了率(GCR)、自律度指数(AIx)、マルチステップタスクレジリエンス(MTR)、ビジネスインパクト効率(BIE)などの指標を紹介する。
この結果から, エージェント設計の相違が顕著であり, ハイブリットエージェントを一貫した高性能モデルとして強調した。
論文 参考訳(メタデータ) (2025-11-11T13:40:46Z) - A Comprehensive Empirical Evaluation of Agent Frameworks on Code-centric Software Engineering Tasks [14.762911285395047]
代表的な3つのコード中心タスクにまたがる7つの汎用エージェントフレームワークを評価する。
この結果から,評価フレームワーク間の機能パターンとトレードオフが明らかとなった。
オーバヘッドに関しては、ソフトウェア開発が最も金銭コストが高いのに対して、GPTswarmは依然として最もコスト効率が高い。
論文 参考訳(メタデータ) (2025-11-02T09:46:59Z) - How Do AI Agents Do Human Work? Comparing AI and Human Workflows Across Diverse Occupations [112.57167042285437]
エージェントが人間とエージェントの労働者の直接比較を初めて提示することで、エージェントがどのように人間の仕事をするかを考察する。
結果が88.3%速く、コストが90.4-96.2%低いことが判明した。
論文 参考訳(メタデータ) (2025-10-26T18:10:22Z) - Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [50.657070334404835]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。
シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。
その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-12-20T09:21:15Z) - CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments [90.29937153770835]
CRMArenaは、プロフェッショナルな作業環境に根ざした現実的なタスクにおいて、AIエージェントを評価するために設計されたベンチマークである。
現状のLDMエージェントはReActプロンプトのタスクの40%以下で成功し,機能呼び出し能力でも55%以下であった。
この結果から,実環境に展開する関数呼び出しやルールフォローにおいて,エージェント機能の向上の必要性が示唆された。
論文 参考訳(メタデータ) (2024-11-04T17:30:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。