論文の概要: Learning from Online Videos at Inference Time for Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2511.04137v1
- Date: Thu, 06 Nov 2025 07:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.348401
- Title: Learning from Online Videos at Inference Time for Computer-Use Agents
- Title(参考訳): コンピュータ利用エージェントの推論時間におけるオンラインビデオからの学習
- Authors: Yujian Liu, Ze Wang, Hao Chen, Ximeng Sun, Xiaodong Yu, Jialian Wu, Jiang Liu, Emad Barsoum, Zicheng Liu, Shiyu Chang,
- Abstract要約: 我々は,コンピュータ利用エージェントがオンラインビデオから推論時に効果的に学習できるようにする方法について研究する。
本稿では,チュートリアルビデオの検索とフィルタリングを行い,それらを構造化されたデモトラジェクトリに変換し,動的にトラジェクトリをコンテキスト内ガイダンスとして選択するフレームワークを提案する。
私たちのフレームワークは、テキストのチュートリアルや書き起こしのみを使用する強力なベースエージェントや変種を一貫して上回ります。
- 参考スコア(独自算出の注目度): 41.90425060535666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-use agents can operate computers and automate laborious tasks, but despite recent rapid progress, they still lag behind human users, especially when tasks require domain-specific procedural knowledge about particular applications, platforms, and multi-step workflows. Humans can bridge this gap by watching video tutorials: we search, skim, and selectively imitate short segments that match our current subgoal. In this paper, we study how to enable computer-use agents to learn from online videos at inference time effectively. We propose a framework that retrieves and filters tutorial videos, converts them into structured demonstration trajectories, and dynamically selects trajectories as in-context guidance during execution. Particularly, using a VLM, we infer UI actions, segment videos into short subsequences of actions, and assign each subsequence a textual objective. At inference time, a two-stage selection mechanism dynamically chooses a single trajectory to add in context at each step, focusing the agent on the most helpful local guidance for its next decision. Experiments on two widely used benchmarks show that our framework consistently outperforms strong base agents and variants that use only textual tutorials or transcripts. Analyses highlight the importance of trajectory segmentation and selection, action filtering, and visual information, suggesting that abundant online videos can be systematically distilled into actionable guidance that improves computer-use agents at inference time. Our code is available at https://github.com/UCSB-NLP-Chang/video_demo.
- Abstract(参考訳): コンピュータ利用エージェントはコンピュータを操作し、面倒なタスクを自動化することができるが、最近の急速な進歩にもかかわらず、タスクが特定のアプリケーション、プラットフォーム、マルチステップワークフローに関するドメイン固有の手続き的知識を必要とする場合、人間のユーザより遅れている。
人間はビデオのチュートリアルを見ることでこのギャップを埋めることができる。
本稿では,コンピュータ利用エージェントが推論時にオンラインビデオから効果的に学習できるようにする方法について検討する。
本稿では,チュートリアルビデオの検索とフィルタリングを行い,それらを構造化された実演軌跡に変換し,実行中にテキスト内ガイダンスとして動的にトラジェクトリを選択するフレームワークを提案する。
特に、VLMを用いて、UIアクションを推測し、ビデオを短いサブシーケンスに分割し、各サブシーケンスをテキストの目的に割り当てる。
推論時には、2段階選択機構が動的に1つの軌道を選択し、各ステップでコンテキストを追加し、エージェントはその次の決定の最も有用なローカルガイダンスに集中する。
広く使われている2つのベンチマーク実験により、我々のフレームワークは、テキストチュートリアルや書き起こしのみを使用する強力なベースエージェントや変種を一貫して上回ります。
分析は、トラジェクティブセグメンテーションと選択、アクションフィルタリング、視覚情報の重要性を強調し、豊富なオンラインビデオは、推論時にコンピュータ使用エージェントを改善する実行可能なガイダンスに体系的に蒸留可能であることを示唆している。
私たちのコードはhttps://github.com/UCSB-NLP-Chang/video_demo.comで利用可能です。
関連論文リスト
- Watch and Learn: Learning to Use Computers from Online Videos [50.10702690339142]
Watch & Learn(W&L)は、インターネット上で簡単に利用できる人間のデモビデオを、大規模に実行可能なUIトラジェクトリに変換するフレームワークである。
我々は,タスク対応ビデオ検索を用いた逆動的ラベリングパイプラインを開発し,生のウェブビデオから53k以上の高品質なトラジェクトリを生成する。
これらの結果から,実世界展開に向けたCUAの実践的かつスケーラブルな基盤として,Webスケールの人間デモビデオが注目されている。
論文 参考訳(メタデータ) (2025-10-06T10:29:00Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - Agent-based Video Trimming [17.519404251018308]
ビデオトリミング(VT)という新しいタスクを導入する。
VTは、無駄な映像を検出し、貴重なセグメントを選択し、それらをコヒーレントなストーリーで最終ビデオに構成することに焦点を当てている。
AVTは、ユーザスタディにおいてより好ましい評価を受け、YouTube Highlights、TVSum、および我々のデータセットにおいて、より優れたmAPと精度を示した。
論文 参考訳(メタデータ) (2024-12-12T17:59:28Z) - CML-MOTS: Collaborative Multi-task Learning for Multi-Object Tracking
and Segmentation [31.167405688707575]
ビデオフレーム上でのインスタンスレベルの視覚分析のためのフレームワークを提案する。
オブジェクト検出、インスタンスセグメンテーション、マルチオブジェクトトラッキングを同時に行うことができる。
提案手法は, KITTI MOTS と MOTS Challenge のデータセットを用いて広範に評価する。
論文 参考訳(メタデータ) (2023-11-02T04:32:24Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - Enabling Weakly-Supervised Temporal Action Localization from On-Device
Learning of the Video Stream [5.215681853828831]
長編未編集のストリーミングビデオから学習するための効率的なビデオ学習手法を提案する。
私たちの知る限りでは、オンデバイスで長いビデオストリームから直接学習する最初の試みです。
論文 参考訳(メタデータ) (2022-08-25T13:41:03Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Transcript to Video: Efficient Clip Sequencing from Texts [65.87890762420922]
Transcript-to-Video - テキストを入力として使用する弱教師付きフレームワークで、広範なショットコレクションからビデオシーケンスを自動的に生成する。
具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するためのコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。
高速な推論のために,リアルタイムビデオクリップシークエンシングのための効率的な検索手法を提案する。
論文 参考訳(メタデータ) (2021-07-25T17:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。