論文の概要: Video-Based Reward Modeling for Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2603.10178v1
- Date: Tue, 10 Mar 2026 19:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.663514
- Title: Video-Based Reward Modeling for Computer-Use Agents
- Title(参考訳): コンピュータ利用エージェントの映像ベースリワードモデリング
- Authors: Linxin Song, Jieyu Zhang, Huanxin Sheng, Taiwei Shi, Gupta Rahul, Yang Liu, Ranjay Krishna, Jian Kang, Jieyu Zhao,
- Abstract要約: 本研究では,エージェントの内部的推論や行動に依存しないエージェント軌道からのシーケンスのシーケンスを,実行ビデオから得られる報酬モデリングについて検討する。
本稿では,53kの高品質ビデオ・タスク・リワード・トリプルのデータセットであるExecution Video Reward 53k(ExeVR-53k)を紹介する。
これらのコンポーネント上に構築したExecution Video Model (ExeVRM) は,タスク成功を予測するためにユーザ命令とビデオ実行シーケンスのみを必要とする。
- 参考スコア(独自算出の注目度): 40.27314571412647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-using agents (CUAs) are becoming increasingly capable; however, it remains difficult to scale evaluation of whether a trajectory truly fulfills a user instruction. In this work, we study reward modeling from execution video: a sequence of keyframes from an agent trajectory that is independent of the agent's internal reasoning or actions. Although video-execution modeling is method-agnostic, it presents key challenges, including highly redundant layouts and subtle, localized cues that determine success. We introduce Execution Video Reward 53k (ExeVR-53k), a dataset of 53k high-quality video--task--reward triplets. We further propose adversarial instruction translation to synthesize negative samples with step-level annotations. To enable learning from long, high-resolution execution videos, we design spatiotemporal token pruning, which removes homogeneous regions and persistent tokens while preserving decisive UI changes. Building on these components, we fine-tune an Execution Video Reward Model (ExeVRM) that takes only a user instruction and a video-execution sequence to predict task success. Our ExeVRM 8B achieves 84.7% accuracy and 87.7% recall on video-execution assessment, outperforming strong proprietary models such as GPT-5.2 and Gemini-3 Pro across Ubuntu, macOS, Windows, and Android, while providing more precise temporal attribution. These results show that video-execution reward modeling can serve as a scalable, model-agnostic evaluator for CUAs.
- Abstract(参考訳): コンピュータ・ユース・エージェント(CUA)はますます有能化しつつあるが、軌道が真のユーザ・インストラクションを満たすかどうかを評価することは困難である。
本研究では,エージェントの内部的推論や行動に依存しないエージェント軌道からのキーフレームのシーケンスである実行ビデオからの報酬モデリングについて検討する。
ビデオ実行モデリングはメソッドに依存しないが、高度に冗長なレイアウトや、成功を決定する微妙な局所的なキューなど、重要な課題を提示する。
本稿では,53kの高品質ビデオ・タスク・リワード・トリプルのデータセットであるExecution Video Reward 53k(ExeVR-53k)を紹介する。
さらに、ステップレベルのアノテーションで負のサンプルを合成する逆命令変換を提案する。
長時間の高精細な実行ビデオから学習を可能にするために、決定的なUI変更を保ちながら、均質な領域と永続的なトークンを除去する時空間トークンプルーニング(spatiotemporal token pruning)を設計する。
これらのコンポーネント上に構築したExecution Video Reward Model (ExeVRM) は,タスク成功を予測するためにユーザ命令とビデオ実行シーケンスのみを必要とする。
当社のExeVRM 8Bは、ビデオ実行評価において84.7%の精度と87.7%のリコールを達成し、Ubuntu、macOS、Windows、AndroidでGPT-5.2やGemini-3 Proなどの強力なプロプライエタリモデルを上回っ、より正確な時間的属性を提供する。
これらの結果から,ビデオ実行報酬モデリングはCUAのスケーラブルでモデルに依存しない評価器として機能することが示された。
関連論文リスト
- UniVBench: Towards Unified Evaluation for Video Foundation Models [29.73247324829126]
ビデオファウンデーションモデルは、ビデオ理解、生成、編集、インストラクションを単一のフレームワークに統合することを目的としている。
UniVBenchは、4つのコア能力にまたがるビデオ基盤モデルを評価するためのベンチマークである。
本ベンチマークでは,200本の高画質・多機能・マルチショット映像を取り入れることで,評価の複雑さを大幅に拡大する。
論文 参考訳(メタデータ) (2026-02-25T12:08:53Z) - VDOT: Efficient Unified Video Creation via Optimal Transport Distillation [70.02065520468726]
本稿では,VDOT という名前の効率的な統合ビデオ生成モデルを提案する。
我々は,実測値分布と偽測値分布の差分を最適化するために,新しい計算最適輸送(OT)技術を用いる。
統合ビデオ生成モデルの訓練を支援するため,ビデオデータアノテーションとフィルタリングのための完全自動パイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-07T11:31:00Z) - VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos [62.29924199978745]
VideoAgentTrekは、Webスケールで公開されているスクリーン録画ビデオからトレーニングデータを自動的にマイニングするスケーラブルなパイプラインである。
生のビデオには暗黙のデモが含まれているが、明示的なアクションラベルがない。
39,000のYouTubeチュートリアルビデオに適用されたパイプラインは、自動的に1250万のインタラクションステップを生成します。
論文 参考訳(メタデータ) (2025-10-22T11:25:48Z) - CAViAR: Critic-Augmented Video Agentic Reasoning [90.48729440775223]
より複雑なビデオ推論を行うために、知覚能力を利用することができますか?
我々は,ビデオモジュールをサブエージェントやツールとして利用できる大規模言語モデルエージェントを開発した。
我々は,我々のエージェントと批評家の組み合わせが,データセット上で高い性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-09T17:59:39Z) - VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは、ビデオ-LLMが外部の監督なしにビデオコンテンツから学ぶことができる自己学習パイプラインである。
我々のアプローチは、モデルの初期応答における推論エラーを識別する自己記述機構を含む。
VideoSAViは、複数のベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-01T00:33:05Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。