論文の概要: UpBench: A Dynamically Evolving Real-World Labor-Market Agentic Benchmark Framework Built for Human-Centric AI
- arxiv url: http://arxiv.org/abs/2511.12306v1
- Date: Sat, 15 Nov 2025 17:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.879295
- Title: UpBench: A Dynamically Evolving Real-World Labor-Market Agentic Benchmark Framework Built for Human-Centric AI
- Title(参考訳): UpBench:人間中心AI用に構築された実世界の労働市場エージェントベンチマークフレームワーク
- Authors: Darvin Yi, Teng Liu, Mattie Terzolo, Lance Hasson, Ayan Sinh, Pablo Mendes, Andrew Rabinovich,
- Abstract要約: UpBenchは、グローバルなUpworkの労働市場から引き出された実際の仕事に関するベンチマークだ。
各タスクは検証されたクライアントトランザクションに対応し、実際の作業活動と財務成果の評価をアンロックする。
UpBenchはルーリックベースの評価フレームワークを採用しており、専門家フリーランサーは各ジョブを詳細かつ検証可能な受け入れ基準に分解し、基準ごとのフィードバックでAI申請を評価する。
- 参考スコア(独自算出の注目度): 2.0619484032730813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language model (LLM) agents increasingly undertake digital work, reliable frameworks are needed to evaluate their real-world competence, adaptability, and capacity for human collaboration. Existing benchmarks remain largely static, synthetic, or domain-limited, providing limited insight into how agents perform in dynamic, economically meaningful environments. We introduce UpBench, a dynamically evolving benchmark grounded in real jobs drawn from the global Upwork labor marketplace. Each task corresponds to a verified client transaction, anchoring evaluation in genuine work activity and financial outcomes. UpBench employs a rubric-based evaluation framework, in which expert freelancers decompose each job into detailed, verifiable acceptance criteria and assess AI submissions with per-criterion feedback. This structure enables fine-grained analysis of model strengths, weaknesses, and instruction-following fidelity beyond binary pass/fail metrics. Human expertise is integrated throughout the data pipeline (from job curation and rubric construction to evaluation) ensuring fidelity to real professional standards and supporting research on human-AI collaboration. By regularly refreshing tasks to reflect the evolving nature of online work, UpBench provides a scalable, human-centered foundation for evaluating agentic systems in authentic labor-market contexts, offering a path toward a collaborative framework, where AI amplifies human capability through partnership rather than replacement.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントがデジタルワークをますます受けているため、人間のコラボレーションのための実世界の能力、適応性、能力を評価するための信頼性の高いフレームワークが必要である。
既存のベンチマークは、大部分が静的、合成的、またはドメイン限定であり、エージェントが動的、経済的に意味のある環境でどのように機能するかについての限られた洞察を提供する。
UpBenchは、グローバルなUpworkの労働市場から引き出された実際のジョブをベースとした、動的に進化するベンチマークです。
各タスクは検証されたクライアントトランザクションに対応し、実際の作業活動と財務成果の評価をアンロックする。
UpBenchはルーリックベースの評価フレームワークを採用しており、専門家フリーランサーは各ジョブを詳細かつ検証可能な受け入れ基準に分解し、基準ごとのフィードバックでAI申請を評価する。
この構造は、2進パス/フェイル測度を超えたモデル強度、弱点、命令追従忠実度をきめ細かな分析を可能にする。
人間の専門知識は、仕事のキュレーションからルーリックな構築から評価まで)データパイプライン全体で統合されており、実際のプロフェッショナル標準への忠実さを確保し、人間とAIのコラボレーションの研究を支援する。
オンライン作業の進化する性質を反映したタスクを定期的にリフレッシュすることにより、UpBenchは、真正の労働市場コンテキストにおけるエージェントシステム評価のための、スケーラブルで人間中心の基盤を提供する。
関連論文リスト
- Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents [1.0305173936249623]
白書では、AIエージェントの成果に基づくタスク非依存のパフォーマンス指標11の新たなフレームワークを提案する。
本稿では、ゴール完了率(GCR)、自律度指数(AIx)、マルチステップタスクレジリエンス(MTR)、ビジネスインパクト効率(BIE)などの指標を紹介する。
この結果から, エージェント設計の相違が顕著であり, ハイブリットエージェントを一貫した高性能モデルとして強調した。
論文 参考訳(メタデータ) (2025-11-11T13:40:46Z) - Evaluations at Work: Measuring the Capabilities of GenAI in Use [28.124088786766965]
現在のAIベンチマークは、人間とAIのコラボレーションの混乱したマルチターンの性質を見逃している。
実世界のタスクを相互依存サブタスクに分解する評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T23:06:23Z) - REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [50.657070334404835]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。
シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。
その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-12-20T09:21:15Z) - CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments [90.29937153770835]
CRMArenaは、プロフェッショナルな作業環境に根ざした現実的なタスクにおいて、AIエージェントを評価するために設計されたベンチマークである。
現状のLDMエージェントはReActプロンプトのタスクの40%以下で成功し,機能呼び出し能力でも55%以下であった。
この結果から,実環境に展開する関数呼び出しやルールフォローにおいて,エージェント機能の向上の必要性が示唆された。
論文 参考訳(メタデータ) (2024-11-04T17:30:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。