Fugu-MT 論文翻訳(概要): JobBench: Aligning Agent Work With Human Will

論文の概要: JobBench: Aligning Agent Work With Human Will

arxiv url: http://arxiv.org/abs/2605.26329v1
Date: Mon, 25 May 2026 21:07:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-27 17:51:41.467047
Title: JobBench: Aligning Agent Work With Human Will
Title（参考訳）: JobBench:人間の意志で仕事をするエージェント
Authors: Yuetai Li, Yichen Feng, Zhangchen Xu, Zixian Ma, Kaiyuan Zheng, Fengqing Jiang, Xinghua Sun, Rulin Shao, Zichen Chen, Yue Huang, Xinyang Han, Brian Lee, Kayla Xu, Shenglai Zeng, Hang Hua, Xiangliang Zhang, Basel Alomair, Ranjay Krishna, Luke Zettlemoyer, Pang Wei Koh, Bhaskar Ramasubramanian, Luyao Niu, Xiang Yue, Radha Poovendran,
Abstract要約: JobBenchは、専門家がデリゲートの優先度が高いと判断する上で、AIエージェントを評価する。 JobBenchは、35の職業にまたがる130のエージェントタスクをカバーしている。
参考スコア（独自算出の注目度）: 121.39878639038716
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current benchmarks for occupational AI agents are scoped primarily by economic values, telling a replacement story. We introduce JobBench, which evaluates AI agents on the workflows that experts identify as high-priority for delegation, empowering humans based on their needs instead of replacing them with GDP value. JobBench covers 130 agentic tasks across 35 occupations. Each task is packaged as a workspace of heterogeneous reference files, requiring the agent to reason through the cluttered information streams of real professional work. Outputs are graded by a fact-anchored chain of rubrics, averaging 35.6 binary criteria per task. We evaluate 36 models; the strongest, Claude Opus~4.7 under Claude Code, reaches only 45.9 %. We hope JobBench shifts the community's target labour-market effect from replacement to enhancement: building agents that do what humans actually want delegated, not only what is most economically valuable.
Abstract（参考訳）: 職業AIエージェントの現在のベンチマークは、主に経済価値によってスコープされ、代替のストーリーが語られる。私たちはJobBenchを紹介します。これは、専門家がデリゲートの優先度が高いと認識するワークフロー上でAIエージェントを評価し、GDP価値に置き換えるのではなく、ニーズに基づいて人間に権限を与えるものです。 JobBenchは、35の職業にまたがる130のエージェントタスクをカバーしている。各タスクは異種参照ファイルのワークスペースとしてパッケージ化され、エージェントは実際のプロフェッショナルな作業の散らかった情報ストリームを解析する必要がある。出力はファクトアンコールされたルーリックの連鎖によって評価され、1タスクあたり平均35.6のバイナリ基準が設定される。我々は36のモデルを評価し、最強のClaude Opus~4.7はClaude Codeで45.9%に達した。 JobBenchは、コミュニティのターゲットである労働市場効果を、置き換えから強化へとシフトさせることを願っている。

関連論文リスト

EnactToM: An Evolving Benchmark for Functional Theory of Mind in Embodied Agents [75.01735520608075]
既存のベンチマークは、直観的信念を問うことで、主にリテラル・オブ・マインド(ToM)をテストする。 EnactToMは, 3D 家庭で設定された300個のマルチエージェントタスクの進化ベンチマークである。ハードスプリットでは、7つの評価されたフロンティアモデルすべてが機能的なタスク完了時に0.0%のPass3を獲得し、リテラルな信念プローブでは平均45.0%であった。
論文参考訳（メタデータ） (2026-05-11T00:04:19Z)
LongSeeker: Elastic Context Orchestration for Long-Horizon Search Agents [63.75550089045995]
ロングホライズン検索エージェントは、理由として急速に成長する作業状況を管理し、ツールを呼び、情報を観察しなければならない。エージェントの軌道の一部は、タスクに対する現在の関連性に応じて、異なるレベルで細部まで維持される。我々は10kの合成軌道上にQwen3-30B-A3Bを微調整した長距離探索エージェントであるLongSeekerを開発した。
論文参考訳（メタデータ） (2026-05-06T17:54:16Z)
How Well Does Agent Development Reflect Real-World Work? [89.17217057358285]
本研究では,ベンチマークインスタンスを作業領域やスキルにマッピングすることで,エージェント開発活動と実世界の人間作業の分布との関係について検討する。プログラム中心のエージェント開発と、人間の労働力と経済価値が集中するカテゴリの間には、かなりのミスマッチがあることを明らかにする。
論文参考訳（メタデータ） (2026-03-01T17:55:49Z)
EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments [0.10934862523101825]
我々は,高忠実度強化学習環境におけるAIエージェントの訓練が,トレーニング分布を超えて一般化する能力を生み出すことを示す。私たちは、Surge AIのエージェントRL環境スイートであるEnterpriseBenchの最初の環境であるCoreCraftを紹介します。
論文参考訳（メタデータ） (2026-02-18T04:35:46Z)
Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。モデル、足場、ベンチマークにまたがる3次元解析を行う。私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文参考訳（メタデータ） (2025-10-13T22:22:28Z)
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models [33.1538965735133]
Cybenchは、サイバーセキュリティタスクを特定し、それらのタスク上でエージェントを評価するためのフレームワークである。 4つの異なるCTFコンペティションから、40のプロフェッショナルレベルのCapture the Flag(CTF)タスクが含まれています。 GPT-4o, OpenAI o1-preview, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, Llama 3.1 405B Instruct。
論文参考訳（メタデータ） (2024-08-15T17:23:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。