論文の概要: Watch and Learn: Learning to Use Computers from Online Videos
- arxiv url: http://arxiv.org/abs/2510.04673v1
- Date: Mon, 06 Oct 2025 10:29:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.804588
- Title: Watch and Learn: Learning to Use Computers from Online Videos
- Title(参考訳): オンラインビデオからコンピュータの使い方を学ぶ
- Authors: Chan Hee Song, Yiwen Song, Palash Goyal, Yu Su, Oriana Riva, Hamid Palangi, Tomas Pfister,
- Abstract要約: Watch & Learn(W&L)は、インターネット上で簡単に利用できる人間のデモビデオを、大規模に実行可能なUIトラジェクトリに変換するフレームワークである。
我々は,タスク対応ビデオ検索を用いた逆動的ラベリングパイプラインを開発し,生のウェブビデオから53k以上の高品質なトラジェクトリを生成する。
これらの結果から,実世界展開に向けたCUAの実践的かつスケーラブルな基盤として,Webスケールの人間デモビデオが注目されている。
- 参考スコア(独自算出の注目度): 50.10702690339142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer use agents (CUAs) need to plan task workflows grounded in diverse, ever-changing applications and environments, but learning is hindered by the scarcity of large-scale, high-quality training data in the target application. Existing datasets are domain-specific, static, and costly to annotate, while current synthetic data generation methods often yield simplistic or misaligned task demonstrations. To address these limitations, we introduce Watch & Learn (W&L), a framework that converts human demonstration videos readily available on the Internet into executable UI trajectories at scale. Instead of directly generating trajectories or relying on ad hoc reasoning heuristics, we cast the problem as an inverse dynamics objective: predicting the user's action from consecutive screen states. This formulation reduces manual engineering, is easier to learn, and generalizes more robustly across applications. Concretely, we develop an inverse dynamics labeling pipeline with task-aware video retrieval, generate over 53k high-quality trajectories from raw web videos, and demonstrate that these trajectories improve CUAs both as in-context demonstrations and as supervised training data. On the challenging OSWorld benchmark, UI trajectories extracted with W&L consistently enhance both general-purpose and state-of-the-art frameworks in-context, and deliver stronger gains for open-source models under supervised training. These results highlight web-scale human demonstration videos as a practical and scalable foundation for advancing CUAs towards real-world deployment.
- Abstract(参考訳): コンピュータ利用エージェント(CUA)は、多様な、絶えず変化するアプリケーションや環境に根ざしたタスクワークフローを計画する必要があるが、学習はターゲットアプリケーションにおける大規模で高品質なトレーニングデータの不足によって妨げられる。
既存のデータセットはドメイン固有であり、静的で、アノテートするのにコストがかかる。
これらの制限に対処するために、インターネット上で簡単に利用できる人間のデモ動画を大規模なUIトラジェクトリに変換するフレームワーク、Watch & Learn (W&L)を紹介した。
トラジェクトリを直接生成したり,あるいはアドホック推論ヒューリスティックスに頼るのではなく,ユーザ動作を連続した画面状態から予測する,逆ダイナミクスの目的とした。
この定式化は、手動のエンジニアリングを減らし、学習しやすく、アプリケーション全体でより堅牢に一般化する。
具体的には、タスク対応ビデオ検索を用いた逆動的ラベリングパイプラインを開発し、生のウェブビデオから53k以上の高品質なトラジェクトリを生成し、これらのトラジェクトリが文脈内デモや教師付きトレーニングデータとしてCUAを改善することを示す。
挑戦的なOSWorldベンチマークでは、W&Lで抽出されたUIトラジェクトリは、コンテキスト内の汎用フレームワークと最先端フレームワークの両方を一貫して強化し、教師付きトレーニングの下でオープンソースモデルに対してより強力なゲインを提供する。
これらの結果から,実世界展開に向けたCUAの実践的かつスケーラブルな基盤として,Webスケールの人間デモビデオが注目されている。
関連論文リスト
- EMMA: Generalizing Real-World Robot Manipulation via Generative Visual Transfer [35.27100635173712]
視覚言語アクション(VLA)モデルは、堅牢な一般化を達成するために、多種多様なトレーニングデータに依存している。
本稿では,VLAポリシー拡張フレームワークであるEmbodied Manipulation Media Adaptation (EMMA)を提案する。
DreamTransferは、3D構造や幾何学的妥当性を損なうことなく、ロボットビデオのテキスト制御による視覚的編集、前景、背景、照明条件の変換を可能にする。
AdaMixは、動的にトレーニングバッチを再重み付けして、知覚的あるいは運動学的に困難なサンプルに最適化する、ハードサンプル対応のトレーニング戦略である。
論文 参考訳(メタデータ) (2025-09-26T14:34:44Z) - From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。
S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。
実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文 参考訳(メタデータ) (2025-07-29T17:26:10Z) - Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets [7.667819384855409]
我々は、ビデオとアクションデータの両方を政策学習に活用できるフレームワークUnified World Models (UWM)を提案する。
各拡散時間ステップを制御することにより、UWMはポリシー、フォワードダイナミクス、逆ダイナミクス、ビデオジェネレータを柔軟に表現することができる。
以上の結果から,UWMは大規模で異種なデータセットをスケーラブルなロボット学習に活用する上で,有望なステップとなることが示唆された。
論文 参考訳(メタデータ) (2025-04-03T17:38:59Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。