論文の概要: CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing
- arxiv url: http://arxiv.org/abs/2605.19484v1
- Date: Tue, 19 May 2026 07:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.190965
- Title: CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing
- Title(参考訳): CutVerse: メディア後編集のためのGUIエージェントベンチマーク
- Authors: Haobo Hu, Xiangwu Guo, Zhiheng Chen, Difei Gao, Haotian Liu, Libiao Jin, Qi Mao,
- Abstract要約: Cutverseは、現実的なメディアポストプロダクション環境で自律的なGUIエージェントを評価するために設計されたベンチマークである。
7つのプロフェッショナルアプリケーション(例:Premiere Pro、Photoshop)にまたがる専門家によるデモをキュレートします。
- 参考スコア(独自算出の注目度): 30.62336565964961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While GUI agents have made significant progress in web navigation and basic operating system tasks, their capabilities in professional creative workflows remain largely underexplored. To bridge this gap, we introduce Cutverse, a benchmark designed to systematically evaluate autonomous GUI agents in realistic media post-production environments. We curate expert demonstrations across 7 professional applications (e.g., Premiere Pro, Photoshop), covering 186 complex, long-horizon tasks grounded in authentic editing workflows, involving dense multimodal interfaces and tightly coupled interaction sequences. To support scalable evaluation, we develop a lightweight parser that transforms raw screen recordings and low-level interaction logs into structured, compositional GUI action trajectories with precise grounding. Extensive evaluations reveal that existing agents achieve only 36.0\% task success on realistic media editing tasks, underscoring the challenges posed by complex, long-horizon media post-production workflows in our benchmark.While current models demonstrate promising spatial grounding, multimodal alignment, and coordinated action execution, they remain limited in long-horizon reliability and domain-specific planning.
- Abstract(参考訳): GUIエージェントはWebナビゲーションや基本的なオペレーティングシステムタスクにおいて大きな進歩を遂げてきたが、プロのクリエイティブワークフローにおけるそれらの能力はいまだに未熟である。
このギャップを埋めるために我々は,現実的なメディアポストプロダクション環境において,自律的なGUIエージェントを体系的に評価するためのベンチマークであるCutverseを紹介する。
私たちは、7つのプロフェッショナルアプリケーション(Premiere Pro、Photoshopなど)にまたがる専門家によるデモをキュレートし、密集したマルチモーダルインターフェースと密結合されたインタラクションシーケンスを含む、本物の編集ワークフローに基礎を置く186の複雑な長い水平タスクをカバーします。
スケーラブルな評価を支援するために,生の画面記録と低レベルの対話ログを精密なグラウンドで構造化したGUIアクショントラジェクトリに変換する軽量パーサを開発した。
大規模評価の結果,既存のエージェントが現実的なメディア編集タスクにおいて36.0.%のタスク成功しか達成していないことが判明した。このベンチマークでは,複雑で長期にわたるメディアポストプロダクションワークフローがもたらす課題を裏付けるものであるが,現在のモデルでは,将来性のある空間的接地,マルチモーダルアライメント,コーディネートされたアクション実行が示されているが,ロングホライゾンの信頼性やドメイン固有のプランニングには制限が残っている。
関連論文リスト
- SaaS-Bench: Can Computer-Use Agents Leverage Real-World SaaS to Solve Professional Workflows? [29.5539656241093]
Computer-Using Agents (CUA)は、より複雑な環境でのアクション実行に対するテキストベースの推論を超えて、大規模言語モデル(LLM)を急速に拡張している。
既存のベンチマークは、しばしば単純化された設定、孤立したタスク、短期水平相互作用に依存している。
6つのプロフェッショナルドメインにわたる23のデプロイ可能なシステム上に構築されたベンチマークには、現実的な作業シナリオに基づく106のタスクが含まれています。
実験の結果、LLMベースのエージェントがベンチで苦労していることが示され、最強のモデルでさえ、エンドツーエンドのタスクの4%未満を完了している。
論文 参考訳(メタデータ) (2026-05-15T09:35:15Z) - CarePilot: A Multi-Agent Framework for Long-Horizon Computer Task Automation in Healthcare [37.42599407869901]
マルチモーダルエージェントパイプラインは、複雑で現実的なタスクの効率的でアクセスしやすい自動化を可能にすることによって、人間とコンピュータのインタラクションを変革している。
近年の取り組みは、短期的、あるいは汎用的なアプリケーションに重点を置いており、特に医療において、ドメイン固有のシステムに対する長期的自動化は、ほとんど探索されていない。
本稿では,アクター批判パラダイムに基づくマルチエージェントフレームワークであるCarePilotを紹介する。
実験の結果,CarePilotは最先端のパフォーマンスを達成し,クローズドソースとオープンソースのマルチモーダルベースラインをそれぞれ約15.26%,3.38%向上した。
論文 参考訳(メタデータ) (2026-03-25T10:25:48Z) - VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining [49.78591189918702]
VisualToolChain-Bench (VTC-Bench)を導入し,マルチモーダル大言語モデル(MLLM)におけるツール使用の習熟度を評価する。
リアルなコンピュータビジョンパイプラインに合わせるために、我々のフレームワークは32種類のOpenCVベースの視覚操作を備えている。
正確な評価のために、9カテゴリの認知階層にまたがる680のキュレートされた問題を提示する。
論文 参考訳(メタデータ) (2026-03-16T09:31:44Z) - AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios [32.58358574768901]
実世界のマルチモーダルエージェントは、視覚的証拠に根ざしたマルチステップを解決する。
既存のベンチマークは、主にシングルターンの視覚的推論または特定のツールスキルを評価する。
本稿では,汎用マルチモーダルエージェントのベンチマークであるAgentVistaを紹介する。
論文 参考訳(メタデータ) (2026-02-26T16:30:46Z) - ANCHOR: Branch-Point Data Generation for GUI Agents [52.22377425487]
デスクトップ環境向けのエンドツーエンドGUIエージェントは、大量の高品質なインタラクションデータを必要とする。
本稿では,拡張フレームワークであるAnchorについて紹介する。このフレームワークは,小規模で検証済みのシードデモから,スケーラブルなデスクトップ監視をブートストラップする。
OSWorldとWindowsAgentArenaの標準デスクトップベンチマークの実験では、拡張されたコーパスに微調整されたモデルが一貫した改善を実現している。
論文 参考訳(メタデータ) (2026-02-06T19:55:26Z) - GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents [59.107657859025586]
GUI-360$circ$は、コンピュータ利用エージェント(CUA)を進化させるために設計された大規模で包括的なデータセットとベンチマークスイートである。
リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションにおける数千のトラジェクトリにわたる1.2万以上の実行されたアクションステップが含まれている。
このデータセットは、3つの標準タスク、GUIグラウンド、スクリーン解析、アクション予測、ハイブリッドGUI+APIアクションスペースをサポートする。
論文 参考訳(メタデータ) (2025-11-06T12:19:02Z) - Hollywood Town: Long-Video Generation via Cross-Modal Multi-Agent Orchestration [73.65102758687289]
本研究は,マルチエージェントコラボレーションを改善するための3つのイノベーションを紹介する。
まず、長いビデオ生成のための階層型グラフベースのマルチエージェントフレームワークであるOmniAgentを提案する。
第2に,文脈工学にヒントを得たハイパーグラフノードを提案する。
論文 参考訳(メタデータ) (2025-10-25T20:34:18Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [57.98933460388985]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。