論文の概要: Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies
- arxiv url: http://arxiv.org/abs/2605.03596v3
- Date: Tue, 12 May 2026 03:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.632388
- Title: Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies
- Title(参考訳): Workspace-Bench 1.0: 大規模ファイル依存のワークスペースタスクにAIエージェントをベンチマークする
- Authors: Zirui Tang, Xuanhe Zhou, Yumou Liu, Linchun Li, Weizheng Wang, Hongzhang Huang, Jun Zhou, Jiachen Song, Shaoli Yu, Jinqi Wang, Zihang Zhou, Hongyi Zhou, Jinyang Li, Jiashuo Liu, Chunwei Liu, GuoLiang Li, Fan Wu,
- Abstract要約: 我々は、Workspace Learning invOlving Large-Scale File Dependencies上でAIエージェントを評価するためのベンチマークであるWorkspace-Benchを紹介する。
5つのワーカープロファイル、74のファイルタイプ、20,476のファイル(最大20GB)を持つ現実的なワークスペースを構築し、それぞれが7,399の合計ルーリックに対して評価された独自のファイル依存グラフを持つ388のタスクをキュレートする。
- 参考スコア(独自算出の注目度): 27.41540592232056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Workspace learning requires AI agents to identify, reason over, exploit, and update explicit and implicit dependencies among heterogeneous files in a worker's workspace, enabling them to complete both routine and advanced tasks effectively. Despite its importance, existing relevant benchmarks largely evaluate agents on pre-specified or synthesized files with limited real-world dependencies, leaving workspace-level evaluation underexplored. To this end, we introduce Workspace-Bench, a benchmark for evaluating AI agents on Workspace Learning invOlving Large-Scale File Dependencies. We construct realistic workspaces with 5 worker profiles, 74 file types, 20,476 files (up to 20GB) and curate 388 tasks, each with its own file dependency graph, evaluated across 7,399 total rubrics that require cross-file retrieval, contextual reasoning, and adaptive decision-making. We further provide Workspace-Bench-Lite, a 100-task subset that preserves the benchmark distribution while reducing evaluation costs by about 70%. We evaluate 3 popular agent harnesses and 5 foundation models. Experimental results show that current agents remain far from reliable workspace learning, where the best reaches only about 60%, substantially below the human result of 80.7%, and the average performance across agents is only 45.1%.
- Abstract(参考訳): ワークスペース学習では、労働者のワークスペース内の異種ファイル間の明示的で暗黙的な依存関係を識別、推論、エクスプロイト、更新するためにAIエージェントが必要である。
その重要性にも拘わらず、既存の関連するベンチマークでは、実世界の依存関係が限られている事前に特定または合成されたファイルのエージェントを評価しており、ワークスペースレベルの評価は過小評価されている。
そこで我々は,Workspace Learning invOlving Large-Scale File DependenciesのAIエージェント評価ベンチマークであるWorkspace-Benchを紹介する。
5つの作業者プロファイル、74のファイルタイプ、20,476のファイル(最大20GB)を持つ現実的なワークスペースを構築し、388のタスクをそれぞれ独自のファイル依存グラフでキュレートする。
さらに、ベンチマーク分布を保存し、評価コストを約70%削減する100タスクサブセットであるWorkspace-Bench-Liteを提供する。
3つのエージェントハーネスと5つのファンデーションモデルを評価した。
実験の結果、現在のエージェントは信頼性の高いワークスペースの学習には程遠いままであり、最も多く到達できるのは60%程度であり、その結果は80.7%以下であり、エージェントの平均的なパフォーマンスは45.1%に過ぎなかった。
関連論文リスト
- Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows [67.92316850084575]
ワークフローエージェントのライブベンチマークであるClaw-Eval-Liveを紹介する。
各リリースは、公開ワークフロー要求信号から構築される。
Claw-Eval-Liveは実行トレース、監査ログ、サービス状態、実行後のワークスペースアーティファクトを記録する。
論文 参考訳(メタデータ) (2026-04-30T17:23:19Z) - HippoCamp: Benchmarking Contextual Agents on Personal Computers [71.97629614361549]
HippoCampは、マルチモーダルファイル管理におけるエージェントの能力を評価するために設計された新しいベンチマークである。
本ベンチマークでは,2K以上の実世界のファイルにまたがる42.4GBのデータを含む,多種多様なモダリティにまたがる実世界のプロファイルに対して,デバイススケールのファイルシステムをインスタンス化する。
論文 参考訳(メタデータ) (2026-04-01T17:58:33Z) - EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments [0.10934862523101825]
我々は,高忠実度強化学習環境におけるAIエージェントの訓練が,トレーニング分布を超えて一般化する能力を生み出すことを示す。
私たちは、Surge AIのエージェントRL環境スイートであるEnterpriseBenchの最初の環境であるCoreCraftを紹介します。
論文 参考訳(メタデータ) (2026-02-18T04:35:46Z) - ARIAL: An Agentic Framework for Document VQA with Precise Answer Localization [1.580774794371876]
本稿では,高精度な回答抽出と信頼性のある空間的接地を実現するために,専門的なツールを編成するフレームワークであるARIALを提案する。
テキスト精度 (ANLS) と空間精度 (空間精度) を用いて, ARIAL を 4 つのベンチマーク (DocVQA, FUNSD, CORD, SROIE) で評価した。
我々の研究は、特殊ツールのエージェント的オーケストレーションが、パフォーマンスと解釈可能性を同時に改善できることを示す。
論文 参考訳(メタデータ) (2025-11-22T21:09:28Z) - Agent READMEs: An Empirical Study of Context Files for Agentic Coding [8.019313057979522]
我々は1,925のリポジトリから2,303のエージェントコンテキストファイルを調べ、それらの構造、保守、およびコンテンツを特徴付ける。
これらのファイルは静的なドキュメントではなく、コンフィグレーションコードのように進化し、頻繁で小さな追加によって維持される複雑で読みにくいアーティファクトであることが分かりました。
これらの結果は、開発者がコンテキストファイルを使用してエージェントを機能させる一方で、エージェント記述コードの安全性やパフォーマンスを保証するためのガードレールはほとんど提供せず、ツールやプラクティスの改善の必要性を強調していることを示している。
論文 参考訳(メタデータ) (2025-11-17T02:18:55Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments [2.184775414778289]
環境ブートストラップスキルを分離するベンチマークである setupbench を導入する。
私たちのタスクは7つの言語エコシステム、5つのデータベースエンジン、マルチサービスオーケストレーションシナリオにまたがっています。
特にリポジトリのセットアップ(38.9-57.4%)とローカルデータベースの設定(20.0-53.3%)に課題がある。
論文 参考訳(メタデータ) (2025-07-11T22:45:07Z) - FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。