論文の概要: VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos
- arxiv url: http://arxiv.org/abs/2510.19488v1
- Date: Wed, 22 Oct 2025 11:25:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.741726
- Title: VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos
- Title(参考訳): VideoAgentTrek: ラベルなしのビデオからトレーニングするコンピュータ利用
- Authors: Dunjie Lu, Yiheng Xu, Junli Wang, Haoyuan Wu, Xinyuan Wang, Zekun Wang, Junlin Yang, Hongjin Su, Jixuan Chen, Junda Chen, Yuchen Mao, Jingren Zhou, Junyang Lin, Binyuan Hui, Tao Yu,
- Abstract要約: VideoAgentTrekは、Webスケールで公開されているスクリーン録画ビデオからトレーニングデータを自動的にマイニングするスケーラブルなパイプラインである。
生のビデオには暗黙のデモが含まれているが、明示的なアクションラベルがない。
39,000のYouTubeチュートリアルビデオに適用されたパイプラインは、自動的に1250万のインタラクションステップを生成します。
- 参考スコア(独自算出の注目度): 62.29924199978745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training computer-use agents requires massive amounts of GUI interaction data, but manually annotating action trajectories at scale is prohibitively expensive. We present VideoAgentTrek, a scalable pipeline that automatically mines training data from publicly available screen-recorded videos at web scale, eliminating the need for manual annotation. Our approach addresses a key challenge: raw videos contain implicit demonstrations but lack explicit action labels. To solve this, we develop Video2Action, an inverse dynamics module (IDM) with two components: (1) a video grounding model that detects and localizes GUI actions with precise temporal boundaries and context, and (2) an action-content recognizer that extracts structured parameters like click coordinates and typed text with high fidelity. Applied to 39,000 YouTube tutorial videos, our pipeline generates 1.52 million interaction steps automatically. We leverage this data through continued pretraining followed by supervised fine-tuning. On OSWorld-Verified, our approach improves task success rates from 9.3% (SFT-only baseline) to 15.8%, a 70% relative improvement. On AgentNetBench, step accuracy increases from 64.1% to 69.3%. Our results demonstrate that passive internet videos can be transformed into high-quality supervision for computer-use agents, providing a scalable alternative to expensive manual annotation.
- Abstract(参考訳): コンピュータ使用エージェントの訓練には大量のGUIインタラクションデータが必要であるが、手動による手動の動作軌跡の注釈付けは違法に高価である。
我々は、Webスケールで公開されているスクリーン録画ビデオからトレーニングデータを自動マイニングするスケーラブルなパイプラインであるVideoAgentTrekを紹介し、手動のアノテーションを不要にする。
生のビデオには暗黙のデモが含まれているが、明示的なアクションラベルがない。
この問題を解決するために,ビデオ2Action は,(1) GUI アクションを正確な時間境界とコンテキストで検出・ローカライズするビデオグラウンドモデル,(2) クリック座標や型付きテキストなどの構造化パラメータを高い忠実度で抽出するアクションコンテンツ認識器である。
YouTubeのチュートリアルビデオ39,000本に応用すると、パイプラインは152万の対話ステップを自動的に生成する。
我々は、このデータを継続した事前訓練と教師付き微調整を通じて活用する。
OSWorld-Verifiedでは、タスク成功率を9.3%(SFTのみのベースライン)から15.8%に改善し、70%が相対的に改善した。
AgentNetBenchでは、ステップ精度が64.1%から69.3%に向上する。
その結果、受動的インターネットビデオは、コンピュータ利用エージェントの高品質な監視に変換され、高価な手動アノテーションに代わるスケーラブルな代替手段を提供することを示した。
関連論文リスト
- D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI [26.33451769892426]
本稿では,D2E(Desktop to Embodied AI)について紹介する。
このフレームワークは,(1) 多様なデスクトップインタラクションを152倍圧縮で標準化されたフォーマットに統一するOWA Toolkit,(2) タイムスタンプベースのイベント予測により,見えないゲーム間で強力なゼロショット一般化を実現するGeneralist-IDM,(3) デスクトップに制約された表現を物理操作やナビゲーションに転送するVAPTの3つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-10-07T08:40:33Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。