論文の概要: xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations
- arxiv url: http://arxiv.org/abs/2506.13651v1
- Date: Mon, 16 Jun 2025 16:16:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.910536
- Title: xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations
- Title(参考訳): xbench: Profession-Aligned Real-World Evaluationsによるトラッキングエージェントの生産性向上
- Authors: Kaiyuan Chen, Yixin Ren, Yang Liu, Xiaobo Hu, Haotong Tian, Tianbao Xie, Fangfu Liu, Haoye Zhang, Hongzhang Liu, Yuan Gong, Chen Sun, Han Hou, Hui Yang, James Pan, Jianan Lou, Jiayi Mao, Jizheng Liu, Jinpeng Li, Kangyi Liu, Kenkun Liu, Rui Wang, Run Li, Tong Niu, Wenlong Zhang, Wenqi Yan, Xuanzheng Wang, Yuchen Zhang, Yi-Hsin Hung, Yuan Jiang, Zexuan Liu, Zihan Yin, Zijian Ma, Zhiwen Mo,
- Abstract要約: 私たちは、AIエージェント能力と現実世界の生産性のギャップを埋めるために設計された、専門性に沿った評価スイートであるxbenchを紹介します。
xbenchは、業界の専門家によって定義された評価タスクを備えた、商業的に重要なドメインをターゲットにしている。
我々は、これらの専門分野のベースラインを確立するために、現代エージェントを指導するための初期評価結果を提示する。
- 参考スコア(独自算出の注目度): 30.34618272227522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce xbench, a dynamic, profession-aligned evaluation suite designed to bridge the gap between AI agent capabilities and real-world productivity. While existing benchmarks often focus on isolated technical skills, they may not accurately reflect the economic value agents deliver in professional settings. To address this, xbench targets commercially significant domains with evaluation tasks defined by industry professionals. Our framework creates metrics that strongly correlate with productivity value, enables prediction of Technology-Market Fit (TMF), and facilitates tracking of product capabilities over time. As our initial implementations, we present two benchmarks: Recruitment and Marketing. For Recruitment, we collect 50 tasks from real-world headhunting business scenarios to evaluate agents' abilities in company mapping, information retrieval, and talent sourcing. For Marketing, we assess agents' ability to match influencers with advertiser needs, evaluating their performance across 50 advertiser requirements using a curated pool of 836 candidate influencers. We present initial evaluation results for leading contemporary agents, establishing a baseline for these professional domains. Our continuously updated evalsets and evaluations are available at https://xbench.org.
- Abstract(参考訳): 私たちは、AIエージェント能力と現実の生産性のギャップを埋めるために設計された、動的で専門性に整った評価スイートであるxbenchを紹介します。
既存のベンチマークは、しばしば孤立した技術スキルに焦点を当てるが、専門的な設定で提供される経済的価値のエージェントを正確に反映しない場合がある。
これを解決するため、xbenchは業界の専門家によって定義された評価タスクで商業的に重要なドメインをターゲットにしている。
我々のフレームワークは生産性の価値と強く相関する指標を作成し、技術市場フィット(TMF)の予測を可能にし、時間の経過とともに製品機能の追跡を容易にする。
最初の実装として、リクルートとマーケティングの2つのベンチマークを提示します。
Recruitmentでは,企業地図,情報検索,人材獲得におけるエージェントの能力を評価するために,実世界のヘッドハンティングビジネスシナリオから50のタスクを収集する。
マーケティングにおいては,広告主のニーズとインフルエンサーをマッチングするエージェントの能力を評価し,インフルエンサーをキュレートした836個のインフルエンサーのプールを用いて,50個の広告主要求に対してそのパフォーマンスを評価する。
我々は、これらの専門分野のベースラインを確立するために、現代エージェントを指導するための初期評価結果を提示する。
継続的に更新されたevalsetと評価はhttps://xbench.org.comで公開しています。
関連論文リスト
- An Illusion of Progress? Assessing the Current State of Web Agents [49.76769323750729]
我々は,Webエージェントの現状を包括的かつ厳密に評価する。
結果は、現在のエージェントの能力の非常に異なる描写を描いており、以前報告された結果に過度に最適化されていることを示唆している。
オンライン評価ベンチマークであるOnline-Mind2Webを紹介した。
論文 参考訳(メタデータ) (2025-04-02T05:51:29Z) - Grounded Persuasive Language Generation for Automated Marketing [59.175257431078435]
本稿では,大規模言語モデル(LLM)を用いて,説得力のあるマーケティングコンテンツの自動生成を実現するエージェントフレームワークを開発する。
提案手法は,生成したコンテンツとユーザの好みを一致させると同時に,有用な事実属性を強調表示するように設計されている。
我々は、不動産マーケティングの分野において、潜在的住宅購入者の焦点を絞った体系的な人物実験を行う。
論文 参考訳(メタデータ) (2025-02-24T03:36:57Z) - AdTEC: A Unified Benchmark for Evaluating Text Quality in Search Engine Advertising [19.642481233488667]
我々は,複数の視点から広告テキストを評価する最初の公開ベンチマークであるAdTEC(Ad Text Evaluation Benchmark by CyberAgent)を提案する。
i)広告テキストの品質を評価するための5つのタスクを定義するとともに,通常社内に保管される広告代理店の業務経験に基づく日本語データセットを構築する。
論文 参考訳(メタデータ) (2024-08-12T03:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。