Fugu-MT 論文翻訳(概要): xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations

論文の概要: xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations

arxiv url: http://arxiv.org/abs/2506.13651v1
Date: Mon, 16 Jun 2025 16:16:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:48.910536
Title: xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations
Title（参考訳）: xbench: Profession-Aligned Real-World Evaluationsによるトラッキングエージェントの生産性向上
Authors: Kaiyuan Chen, Yixin Ren, Yang Liu, Xiaobo Hu, Haotong Tian, Tianbao Xie, Fangfu Liu, Haoye Zhang, Hongzhang Liu, Yuan Gong, Chen Sun, Han Hou, Hui Yang, James Pan, Jianan Lou, Jiayi Mao, Jizheng Liu, Jinpeng Li, Kangyi Liu, Kenkun Liu, Rui Wang, Run Li, Tong Niu, Wenlong Zhang, Wenqi Yan, Xuanzheng Wang, Yuchen Zhang, Yi-Hsin Hung, Yuan Jiang, Zexuan Liu, Zihan Yin, Zijian Ma, Zhiwen Mo,
Abstract要約: 私たちは、AIエージェント能力と現実世界の生産性のギャップを埋めるために設計された、専門性に沿った評価スイートであるxbenchを紹介します。 xbenchは、業界の専門家によって定義された評価タスクを備えた、商業的に重要なドメインをターゲットにしている。我々は、これらの専門分野のベースラインを確立するために、現代エージェントを指導するための初期評価結果を提示する。
参考スコア（独自算出の注目度）: 30.34618272227522
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce xbench, a dynamic, profession-aligned evaluation suite designed to bridge the gap between AI agent capabilities and real-world productivity. While existing benchmarks often focus on isolated technical skills, they may not accurately reflect the economic value agents deliver in professional settings. To address this, xbench targets commercially significant domains with evaluation tasks defined by industry professionals. Our framework creates metrics that strongly correlate with productivity value, enables prediction of Technology-Market Fit (TMF), and facilitates tracking of product capabilities over time. As our initial implementations, we present two benchmarks: Recruitment and Marketing. For Recruitment, we collect 50 tasks from real-world headhunting business scenarios to evaluate agents' abilities in company mapping, information retrieval, and talent sourcing. For Marketing, we assess agents' ability to match influencers with advertiser needs, evaluating their performance across 50 advertiser requirements using a curated pool of 836 candidate influencers. We present initial evaluation results for leading contemporary agents, establishing a baseline for these professional domains. Our continuously updated evalsets and evaluations are available at https://xbench.org.
Abstract（参考訳）: 私たちは、AIエージェント能力と現実の生産性のギャップを埋めるために設計された、動的で専門性に整った評価スイートであるxbenchを紹介します。既存のベンチマークは、しばしば孤立した技術スキルに焦点を当てるが、専門的な設定で提供される経済的価値のエージェントを正確に反映しない場合がある。これを解決するため、xbenchは業界の専門家によって定義された評価タスクで商業的に重要なドメインをターゲットにしている。我々のフレームワークは生産性の価値と強く相関する指標を作成し、技術市場フィット(TMF)の予測を可能にし、時間の経過とともに製品機能の追跡を容易にする。最初の実装として、リクルートとマーケティングの2つのベンチマークを提示します。 Recruitmentでは,企業地図,情報検索,人材獲得におけるエージェントの能力を評価するために,実世界のヘッドハンティングビジネスシナリオから50のタスクを収集する。マーケティングにおいては,広告主のニーズとインフルエンサーをマッチングするエージェントの能力を評価し,インフルエンサーをキュレートした836個のインフルエンサーのプールを用いて,50個の広告主要求に対してそのパフォーマンスを評価する。我々は、これらの専門分野のベースラインを確立するために、現代エージェントを指導するための初期評価結果を提示する。継続的に更新されたevalsetと評価はhttps://xbench.org.comで公開しています。

関連論文リスト

How Well Does Agent Development Reflect Real-World Work? [89.17217057358285]
本研究では,ベンチマークインスタンスを作業領域やスキルにマッピングすることで,エージェント開発活動と実世界の人間作業の分布との関係について検討する。プログラム中心のエージェント開発と、人間の労働力と経済価値が集中するカテゴリの間には、かなりのミスマッチがあることを明らかにする。
論文参考訳（メタデータ） (2026-03-01T17:55:49Z)
AD-Bench: A Real-World, Trajectory-Aware Advertising Analytics Benchmark for LLM Agents [11.506625665006979]
AD-Benchは、広告とマーケティングプラットフォームの実際のビジネス要件に基づくベンチマークである。ベンチマークでは、リクエストを3つの難易度に分類し、マルチラウンドのマルチツールコラボレーションの下でエージェントの能力を評価する。実験によると、最先端のモデルでさえ、複雑な広告やマーケティング分析のシナリオにおいて、大きな能力のギャップをみせている。
論文参考訳（メタデータ） (2026-02-15T17:59:47Z)
Benchmarking Agents in Insurance Underwriting Environments [0.9728664856449597]
既存のベンチマークは、コードのようなオープンドメインを過度に強調し、狭い精度のメトリクスを使い、真の複雑さを欠いている。我々は、ドメインエキスパートとの密接なコラボレーションのために設計された、専門家優先のマルチターン保険書記ベンチマークUNDERWRITEを提案する。
論文参考訳（メタデータ） (2026-01-31T02:12:11Z)
LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文参考訳（メタデータ） (2025-11-17T23:57:24Z)
UpBench: A Dynamically Evolving Real-World Labor-Market Agentic Benchmark Framework Built for Human-Centric AI [2.0619484032730813]
UpBenchは、グローバルなUpworkの労働市場から引き出された実際の仕事に関するベンチマークだ。各タスクは検証されたクライアントトランザクションに対応し、実際の作業活動と財務成果の評価をアンロックする。 UpBenchはルーリックベースの評価フレームワークを採用しており、専門家フリーランサーは各ジョブを詳細かつ検証可能な受け入れ基準に分解し、基準ごとのフィードバックでAI申請を評価する。
論文参考訳（メタデータ） (2025-11-15T17:39:37Z)
Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents [1.0305173936249623]
白書では、AIエージェントの成果に基づくタスク非依存のパフォーマンス指標11の新たなフレームワークを提案する。本稿では、ゴール完了率(GCR)、自律度指数(AIx)、マルチステップタスクレジリエンス(MTR)、ビジネスインパクト効率(BIE)などの指標を紹介する。この結果から, エージェント設計の相違が顕著であり, ハイブリットエージェントを一貫した高性能モデルとして強調した。
論文参考訳（メタデータ） (2025-11-11T13:40:46Z)
FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文参考訳（メタデータ） (2025-05-26T08:21:46Z)
CRMArena-Pro: Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions [85.88573535033406]
CRMArena-Proは、多種多様なプロフェッショナル環境でのLLMエージェントの総合的で現実的な評価のための新しいベンチマークである。多様なペルソナと堅牢な機密性意識評価によって導かれるマルチターンインタラクションが組み込まれている。実験によると、主要なLLMエージェントはCRMArena-Proで58%のシングルターン成功しか達成せず、パフォーマンスはマルチターン設定で約35%に大幅に低下している。
論文参考訳（メタデータ） (2025-05-24T21:33:22Z)
REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文参考訳（メタデータ） (2025-04-15T18:22:55Z)
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories [59.214178488091584]
我々は,LLM審査員によるWebエージェント評価の有効性を評価する最初のベンチマークであるAgentRewardBenchを提案する。ベンチマークを用いて,12名のLLM審査員を評価し,全てのベンチマークでLLMが排他的でないことを発見した。また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小評価する傾向にあることも見出した。
論文参考訳（メタデータ） (2025-04-11T19:49:22Z)
An Illusion of Progress? Assessing the Current State of Web Agents [49.76769323750729]
我々は,Webエージェントの現状を包括的かつ厳密に評価する。結果は、現在のエージェントの能力の非常に異なる描写を描いており、以前報告された結果に過度に最適化されていることを示唆している。オンライン評価ベンチマークであるOnline-Mind2Webを紹介した。
論文参考訳（メタデータ） (2025-04-02T05:51:29Z)
Grounded Persuasive Language Generation for Automated Marketing [59.175257431078435]
本稿では,大規模言語モデル(LLM)を用いて,説得力のあるマーケティングコンテンツの自動生成を実現するエージェントフレームワークを開発する。提案手法は,生成したコンテンツとユーザの好みを一致させると同時に,有用な事実属性を強調表示するように設計されている。我々は、不動産マーケティングの分野において、潜在的住宅購入者の焦点を絞った体系的な人物実験を行う。
論文参考訳（メタデータ） (2025-02-24T03:36:57Z)
More than Marketing? On the Information Value of AI Benchmarks for Practitioners [42.73526862595375]
学術分野では、公開ベンチマークは一般的に研究の進展を捉えるのに適した指標と見なされた。製品や政策において、ベンチマークは実質的な決定を下すのに不十分であることがしばしば見出された。有効なベンチマークは、意味のある実世界の評価を提供し、ドメインの専門知識を取り入れ、スコープと目標の透明性を維持するべきであると結論付けています。
論文参考訳（メタデータ） (2024-12-07T03:35:39Z)
CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments [90.29937153770835]
CRMArenaは、プロフェッショナルな作業環境に根ざした現実的なタスクにおいて、AIエージェントを評価するために設計されたベンチマークである。現状のLDMエージェントはReActプロンプトのタスクの40%以下で成功し,機能呼び出し能力でも55%以下であった。この結果から,実環境に展開する関数呼び出しやルールフォローにおいて,エージェント機能の向上の必要性が示唆された。
論文参考訳（メタデータ） (2024-11-04T17:30:51Z)
AdTEC: A Unified Benchmark for Evaluating Text Quality in Search Engine Advertising [19.642481233488667]
我々は,複数の視点から広告テキストを評価する最初の公開ベンチマークであるAdTEC(Ad Text Evaluation Benchmark by CyberAgent)を提案する。 i)広告テキストの品質を評価するための5つのタスクを定義するとともに,通常社内に保管される広告代理店の業務経験に基づく日本語データセットを構築する。
論文参考訳（メタデータ） (2024-08-12T03:32:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。