論文の概要: DeskCraft: Benchmarking Desktop Agents on Professional Workflows and Human-in-the-Loop Collaboration
- arxiv url: http://arxiv.org/abs/2606.03103v1
- Date: Tue, 02 Jun 2026 03:42:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.736786
- Title: DeskCraft: Benchmarking Desktop Agents on Professional Workflows and Human-in-the-Loop Collaboration
- Title(参考訳): DeskCraft: プロフェッショナルワークフローとヒューマン・イン・ザ・ループコラボレーションによるデスクトップエージェントのベンチマーク
- Authors: Wenkai Wang, Tao Xiong, Jingchen Ni, Yunpeng Bao, Xiyun Li, Tianqi Liu, Hongcan Guo, Zilong Huang, Shengyu Zhang,
- Abstract要約: DeskCraftはGUIベンチマークで、長い水平方向の創造性とエンジニアリングと積極的な人間とエージェントのコラボレーションをターゲットにしている。
タスクを多段階の難易度分類に編成し、長い水平方向タスクは50以上の実行ステップを必要とする。
それは、人間とエージェントのコラボレーションを、ミッドターンとポストターンの交換をカバーするインタラクションプロトコルにフォーマル化する。
- 参考スコア(独自算出の注目度): 20.854007430883357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world professional desktop workflows in specialized creative and engineering software unfold over long horizons and often require human-in-the-loop coordination, where agents proactively seek necessary information and users provide additional instructions, clarifications, feedback, or corrections as the task progresses. Yet existing desktop GUI benchmarks mostly reduce this setting to short, simplified tasks with all user instructions provided upfront. To address this issue, we introduce DeskCraft, a desktop GUI benchmark targeting long horizon creative and engineering workflows and proactive human-agent collaboration. DeskCraft organizes tasks into a multilevel difficulty taxonomy, with long horizon tasks requiring over 50 execution steps, and covers professional creative software across design, video, audio, and 3D creation. Furthermore, DeskCraft formalizes human-agent collaboration into an interaction protocol covering mid-turn and post-turn exchanges. Mid-turn interaction captures both agent-initiated clarification under uncertainty and user-initiated interruption during execution, while post-turn interaction accommodates user-driven feedback after the agent signals completion, together spanning the full space of realistic collaboration patterns. We evaluate 18 proprietary and open source agents on 538 tasks and find that GPT-5.4 reaches 31.6% on standard tasks and 27.6% on interactive tasks. Further analyses reveal persistent failures in long horizon workflow delivery and proactive clarification. We will open-source all evaluation codes, tasks, and data at https://github.com/mrwwk/DeskCraft.
- Abstract(参考訳): 専門的なクリエイティブおよびエンジニアリングソフトウェアにおける現実のプロのデスクトップワークフローは、長い地平線を越えて展開し、しばしば人間とループの調整を必要とし、エージェントは積極的に必要な情報を求め、ユーザーはタスクが進行するにつれて追加の指示、明確化、フィードバック、修正を行う。
しかし、既存のデスクトップGUIベンチマークは、この設定を、前もって提供されたすべてのユーザー指示で、短くて単純化されたタスクに減らしている。
この問題に対処するために、DeskCraftを紹介します。DeskCraftは、長い水平方向の創造とエンジニアリングのワークフローと、アクティブな人間とエージェントのコラボレーションをターゲットにしたデスクトップGUIベンチマークです。
DeskCraftはタスクを多段階の難易度分類に整理し、50以上の実行ステップを必要とする長い水平方向タスクと、デザイン、ビデオ、オーディオ、そして3D制作のプロのクリエイティブなソフトウェアをカバーしている。
さらにDeskCraftは、人間とエージェントのコラボレーションを、ミッドターンとポストターンの交換をカバーするインタラクションプロトコルに形式化している。
ミッドターンインタラクションは、不確実性の下でのエージェント開始の明確化と実行中のユーザ開始の中断の両方をキャプチャする一方、ポストターンインタラクションは、エージェントが完了した後にユーザ主導のフィードバックを許容し、現実的なコラボレーションパターンの完全な空間にまたがる。
538タスクで18のプロプライエタリおよびオープンソースエージェントを評価し、GPT-5.4が標準タスクで31.6%、対話タスクで27.6%に達することを発見した。
さらなる分析により、長い水平ワークフローのデリバリとプロアクティブな明確化において、永続的な失敗が明らかになる。
私たちは、すべての評価コード、タスク、データをhttps://github.com/mrwwk/DeskCraft.comでオープンソース化します。
関連論文リスト
- CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing [30.62336565964961]
Cutverseは、現実的なメディアポストプロダクション環境で自律的なGUIエージェントを評価するために設計されたベンチマークである。
7つのプロフェッショナルアプリケーション(例:Premiere Pro、Photoshop)にまたがる専門家によるデモをキュレートします。
論文 参考訳(メタデータ) (2026-05-19T07:35:22Z) - Building Persona-Based Agents On Demand: Tailoring Multi-Agent Workflows to User Needs [7.581170689280664]
我々は、オンデマンドのペルソナベースのエージェント生成が、エージェントプラットフォーム内でのより効率的で文脈的に適切なインタラクションへ、有望な道筋を提供すると論じる。
本稿では,エージェントプラットフォームにおけるオンデマンドペルソナ生成のためのパイプラインを提案し,エージェントシステムにAIペルソナのリアルタイム作成を体系的に組み込む方法について述べる。
論文 参考訳(メタデータ) (2026-04-30T14:01:06Z) - AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - AgentMesh: A Cooperative Multi-Agent Generative AI Framework for Software Development Automation [0.0]
ソフトウェア開発タスクの自動化に複数のLCMエージェントを併用したPythonベースのフレームワークを提案する。
AgentMeshでは、Planner、Coder、Debugger、Reviewerといった特殊なエージェントが協力して、ハイレベルな要件を完全に実現されたコードに変換する。
論文 参考訳(メタデータ) (2025-07-26T10:10:02Z) - PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。