論文の概要: Scalable Data Synthesis for Computer Use Agents with Step-Level Filtering
- arxiv url: http://arxiv.org/abs/2512.10962v1
- Date: Sat, 22 Nov 2025 23:12:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.657187
- Title: Scalable Data Synthesis for Computer Use Agents with Step-Level Filtering
- Title(参考訳): ステップレベルフィルタを用いたコンピュータ用エージェントのスケーラブルデータ合成
- Authors: Yifei He, Pranit Chawla, Yaser Souri, Subhojit Som, Xia Song,
- Abstract要約: 我々は、ノイズの多いロールアウトを人間のアノテーションなしで信頼性の高い監視に変換するスケーラブルなデータ合成パイプラインを導入する。
ステップレベルのフィルタリング(Step-level filtering)は、アクションを個別に評価し、正しいステップのみを保持する。
その結果,拡張性のあるCUAトレーニングの鍵となるステップレベルのフィルタリングを確立し,新しい2つのデータセットを構築した。
- 参考スコア(独自算出の注目度): 11.375577889547351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer use agents (CUAs) can operate real-world digital interfaces but remain difficult to train due to the high cost of graphical user interface (GUI) interaction and the scarcity of high-quality trajectory data. Existing datasets rely on human demonstrations, limiting scalability. A natural alternative is to synthesize data from strong CUAs, yet their rollouts are highly noisy, with incorrect or suboptimal actions consisting a large proportion of the steps, making naive imitation ineffective. To tackle this challenge, we introduce a scalable data synthesis pipeline that transforms noisy rollouts into reliable supervision without human annotation. The core idea is step-level filtering, which evaluates actions individually to retain only correct steps, complemented by reasoning augmentation for improved planning. Using this pipeline, we construct WebSTAR, a dataset of 13.3K trajectories and 100K graded, reasoning-rich steps synthesized from OpenAI's computer-use-preview model. We train Qwen-2.5-VL-Instruct models (7B and 32B) on WebSTAR. On WebVoyager, our 7B model surpasses SoTA open-source CUA model UI-TARS-1.5-7B by more than 15% with only supervised finetuning. Building on step-level grading, we further create WebSCORE, a dataset of graded step-level actions, and train StepRM, a 7B multimodal reward model distilled from o4-mini, which matches its grading quality while being far more efficient to deploy at scale. Our results establish step-level filtering as a key principle for scalable CUA training and construct two new datasets (WebSTAR, WebSCORE) and a lightweight reward model (StepRM) as practical tools to advance robust and efficient CUAs.
- Abstract(参考訳): コンピュータ・ユース・エージェント(CUA)は現実世界のデジタル・インタフェースを操作できるが、グラフィカル・ユーザー・インタフェース(GUI)の高コストなインタラクションと高品質なトラジェクティブ・データの不足のため訓練は困難である。
既存のデータセットは人間のデモに依存しており、スケーラビリティを制限している。
自然な代替手段は、強力なCUAからデータを合成することであるが、それらのロールアウトは非常にうるさく、不正確なもしくは最適でない動作は、ステップのかなりの割合で成り立っているため、単純な模倣は効果がない。
この課題に対処するため、我々は、ノイズの多いロールアウトを人間のアノテーションなしで信頼性の高い監視に変換するスケーラブルなデータ合成パイプラインを導入しました。
ステップレベルのフィルタリング(Step-level filtering)は、適切なステップのみを保持するために個別にアクションを評価する。
このパイプラインを用いて、OpenAIのコンピュータ・ユース・プレビューモデルから合成された、13.3K軌道と100Kグレードの推論に富んだステップからなるデータセットであるWebSTARを構築する。
WebSTAR 上で Qwen-2.5-VL-Instruct モデル (7B と 32B) を訓練する。
WebVoyagerでは、7BモデルがSoTAのオープンソースCUAモデルであるUI-TARS-1.5-7Bを15%以上超えています。
ステップレベルのグレーディングに基づいて、さらに段階的なステップレベルのアクションのデータセットであるWebSCOREを作成し、o4-miniから抽出した7Bマルチモーダル報酬モデルであるStepRMをトレーニングします。
その結果,スケーラブルなCUAトレーニングの鍵となるステップレベルのフィルタリングを確立し,より堅牢で効率的なCUAを推進するための実用ツールとして2つの新しいデータセット(WebSTAR,WebSCORE)と軽量報酬モデル(StepRM)を構築した。
関連論文リスト
- UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action [77.63125913907771]
本稿では,GUIプリミティブと高レベルのプログラムツールコールのギャップを埋める基盤モデルであるUltraCUAを提案する。
7Bおよび32Bモデルによる実験は、最先端のエージェントよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-20T17:48:26Z) - GAZE:Governance-Aware pre-annotation for Zero-shot World Model Environments [1.6398143439811486]
堅牢な世界モデルのトレーニングには、大規模で正確にラベル付けされたマルチモーダルデータセットが必要である。
本稿では,GAZEパイプラインを用いて,生の長文ビデオのリッチなタスク対応監視への変換を自動化する。
論文 参考訳(メタデータ) (2025-10-07T21:13:03Z) - SCIZOR: A Self-Supervised Approach to Data Curation for Large-Scale Imitation Learning [29.14330314090061]
模倣学習は、人間のデモンストレーションから多様な行動の獲得を可能にすることで、ロボット能力を向上させる。
既存のロボットキュレーションアプローチは、高価な手作業によるアノテーションに依存し、粗い粒度でキュレーションを行う。
本稿では、低品質な状態-動作ペアをフィルタリングして模倣学習ポリシーの性能を向上させる自己教師型データキュレーションフレームワークであるSCIZORを紹介する。
論文 参考訳(メタデータ) (2025-05-28T17:45:05Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - Reinforcement Learning as a Parsimonious Alternative to Prediction
Cascades: A Case Study on Image Segmentation [6.576180048533476]
PaSeR(Parsimonious with Reinforcement Learning)は、非スケーリングでコストを意識した学習パイプラインである。
ケースドモデルと比較して計算コストを最小化しながら,PaSeRの精度が向上することを示す。
コストと性能のバランスを評価するため,新しい指標IoU/GigaFlopを導入する。
論文 参考訳(メタデータ) (2024-02-19T01:17:52Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。