論文の概要: CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2603.24440v1
- Date: Wed, 25 Mar 2026 15:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.37098
- Title: CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents
- Title(参考訳): CUA-Suite:コンピュータ利用エージェントのための大量の人手によるビデオデモ
- Authors: Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, Aarash Feizi, Kaixin Li, Patrice Bechard, Spandana Gella, Sai Rajeswar,
- Abstract要約: CUA-Suiteは、プロのデスクトップコンピュータ利用エージェントのための、専門家によるビデオデモと高密度アノテーションの大規模エコシステムである。
中心となるのがVideoCUAで、87の多様なアプリケーションにわたる約10,000の人為的なタスクを提供する。
CUA-Suiteはさらに2つの補完的なリソースを提供している。UI-VisionはCUAの接地と計画機能を評価するための厳格なベンチマークであり、GroundCUAは56Kの注釈付きスクリーンショットを持つ大規模な接地データセットである。
- 参考スコア(独自算出の注目度): 17.596111848044476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-use agents (CUAs) hold great promise for automating complex desktop workflows, yet progress toward general-purpose agents is bottlenecked by the scarcity of continuous, high-quality human demonstration videos. Recent work emphasizes that continuous video, not sparse screenshots, is the critical missing ingredient for scaling these agents. However, the largest existing open dataset, ScaleCUA, contains only 2 million screenshots, equating to less than 20 hours of video. To address this bottleneck, we introduce CUA-Suite, a large-scale ecosystem of expert video demonstrations and dense annotations for professional desktop computer-use agents. At its core is VideoCUA, which provides approximately 10,000 human-demonstrated tasks across 87 diverse applications with continuous 30 fps screen recordings, kinematic cursor traces, and multi-layerfed reasoning annotations, totaling approximately 55 hours and 6 million frames of expert video. Unlike sparse datasets that capture only final click coordinates, these continuous video streams preserve the full temporal dynamics of human interaction, forming a superset of information that can be losslessly transformed into the formats required by existing agent frameworks. CUA-Suite further provides two complementary resources: UI-Vision, a rigorous benchmark for evaluating grounding and planning capabilities in CUAs, and GroundCUA, a large-scale grounding dataset with 56K annotated screenshots and over 3.6 million UI element annotations. Preliminary evaluation reveals that current foundation action models struggle substantially with professional desktop applications (~60% task failure rate). Beyond evaluation, CUA-Suite's rich multimodal corpus supports emerging research directions including generalist screen parsing, continuous spatial control, video-based reward modeling, and visual world models. All data and models are publicly released.
- Abstract(参考訳): コンピュータ利用エージェント(CUA)は複雑なデスクトップワークフローの自動化を大いに約束するが、汎用エージェントへの進歩は、継続的で高品質な人間のデモビデオの不足によってボトルネックとなる。
最近の研究で強調されているのは、連続ビデオはスパーススクリーンショットではなく、これらのエージェントをスケーリングする上で欠落している要素であるということだ。
しかし、既存の最大のオープンデータセットであるScaleCUAには、わずか200万のスクリーンショットしか含まれていない。
このボトルネックに対処するため、我々は、プロのデスクトップコンピュータ利用エージェント向けのエキスパートビデオデモと高密度アノテーションの大規模エコシステムであるCUA-Suiteを紹介した。
コアとなるVideoCUAは、87の多様なアプリケーションに約1万の人為的なタスクを提供し、連続的な30fpsのスクリーン記録、キネマティックカーソルトレース、多層推論アノテーション、合計55時間600万フレームのエキスパートビデオを提供する。
最終的なクリック座標のみをキャプチャするスパースデータセットとは異なり、これらの連続ビデオストリームは人間のインタラクションの完全な時間的ダイナミクスを保ち、既存のエージェントフレームワークが必要とするフォーマットに損失なく変換できる情報のスーパーセットを形成する。
CUA-Suiteはさらに2つの補完的なリソースを提供している。UI-VisionはCUAの接地と計画機能を評価する厳格なベンチマークであり、GroundCUAは56Kの注釈付きスクリーンショットと360万以上のUI要素アノテーションを備えた大規模接地データセットである。
予備的な評価は、現在の基礎アクションモデルがプロのデスクトップアプリケーション(約60%のタスク失敗率)と実質的に競合していることを示している。
評価以外にも、CUA-Suiteのリッチマルチモーダルコーパスは、一般的なスクリーン解析、連続空間制御、ビデオベースの報酬モデリング、ビジュアルワールドモデルなど、新たな研究方向をサポートする。
すべてのデータとモデルが公開されている。
関連論文リスト
- Video-Based Reward Modeling for Computer-Use Agents [40.27314571412647]
本研究では,エージェントの内部的推論や行動に依存しないエージェント軌道からのシーケンスのシーケンスを,実行ビデオから得られる報酬モデリングについて検討する。
本稿では,53kの高品質ビデオ・タスク・リワード・トリプルのデータセットであるExecution Video Reward 53k(ExeVR-53k)を紹介する。
これらのコンポーネント上に構築したExecution Video Model (ExeVRM) は,タスク成功を予測するためにユーザ命令とビデオ実行シーケンスのみを必要とする。
論文 参考訳(メタデータ) (2026-03-10T19:17:22Z) - VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos [62.29924199978745]
VideoAgentTrekは、Webスケールで公開されているスクリーン録画ビデオからトレーニングデータを自動的にマイニングするスケーラブルなパイプラインである。
生のビデオには暗黙のデモが含まれているが、明示的なアクションラベルがない。
39,000のYouTubeチュートリアルビデオに適用されたパイプラインは、自動的に1250万のインタラクションステップを生成します。
論文 参考訳(メタデータ) (2025-10-22T11:25:48Z) - ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。
本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文 参考訳(メタデータ) (2025-07-28T15:52:36Z) - Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents [57.59830804627066]
実世界のモバイルOSナビゲーションをキャプチャする20Kの指導ビデオから,313Kの注釈付きフレームの大規模データセットであるMONDAYを紹介した。
MONDAYを事前学習フェーズに含むモデルは、堅牢なクロスプラットフォームの一般化機能を示す。
公開されているビデオコンテンツを利用して、包括的なタスクデータセットを作成する自動化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T02:39:03Z) - OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer [14.503628667535425]
広範なビデオの処理は、膨大なデータと処理要求のために大きな課題をもたらします。
我々はOmAgentを開発し、特定のクエリの関連ビデオフレームを効率的に保存し、検索する。
自律推論が可能なDivide-and-Conquer Loopを備えている。
より高度な自律性と堅牢なツールコールシステムを備えており、さらに複雑なタスクを達成できます。
論文 参考訳(メタデータ) (2024-06-24T13:05:39Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。