論文の概要: Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining
- arxiv url: http://arxiv.org/abs/2605.14747v1
- Date: Thu, 14 May 2026 12:14:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.810691
- Title: Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining
- Title(参考訳): Video2GUI: 汎用GUIエージェント事前学習のための大規模インタラクション軌跡の合成
- Authors: Weimin Xiong, Shuhao Gu, Bowen Ye, Zihao Yue, Lei Li, Feifan Song, Sujian Li, Hao Tian,
- Abstract要約: Video2GUIは、未ラベルのインターネットビデオから直接GUIインタラクショントラジェクトリを抽出するフレームワークである。
1500以上のアプリケーションとWebサイトにまたがる1200万のインタラクショントラジェクトリを含む大規模データセットであるWildGUIを構築した。
将来的なGUIエージェントの研究をサポートするために、WildGUIデータセットとVideo2GUIパイプラインの両方をリリースします。
- 参考スコア(独自算出の注目度): 29.391227440359287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models have driven growing interest in graphical user interface (GUI) agents, yet their generalization remains constrained by the scarcity of large-scale training data spanning diverse real-world applications. Existing datasets rely heavily on costly manual annotations and are typically confined to narrow domains. To address this challenge, we propose Video2GUI, a fully automated framework that extracts grounded GUI interaction trajectories directly from unlabeled Internet videos. Video2GUI employs a coarse-to-fine filtering strategy to identify high-quality GUI tutorial videos and convert them into structured agent trajectories. Applying this pipeline to 500 million video metadata entries, we construct WildGUI, a large-scale dataset containing 12 million interaction trajectories spanning over 1,500 applications and websites. Pre-training Qwen2.5-VL and Mimo-VL on WildGUI yields consistent improvements of 5-20% across multiple GUI grounding and action benchmarks, matching or surpassing state-of-the-art performance. We will release both the WildGUI dataset and the Video2GUI pipeline to support future research of GUI agents.
- Abstract(参考訳): マルチモーダルな大規模言語モデルの最近の進歩は、グラフィカルユーザインタフェース(GUI)エージェントへの関心の高まりを招いているが、その一般化は、様々な現実世界のアプリケーションにまたがる大規模トレーニングデータの不足によって、いまだに制約されている。
既存のデータセットはコストのかかる手動アノテーションに大きく依存しており、通常は狭いドメインに限定される。
この課題に対処するために,未ラベルのインターネットビデオから直接GUIインタラクショントラジェクトリを抽出する,完全に自動化されたフレームワークであるVideo2GUIを提案する。
Video2GUIは粗いフィルタリング戦略を用いて高品質なGUIチュートリアルビデオを識別し、それらを構造化されたエージェントトラジェクトリに変換する。
このパイプラインを5億のビデオメタデータエントリに適用することにより、1500以上のアプリケーションやWebサイトにわたる1200万のインタラクショントラジェクトリを含む大規模なデータセットであるWildGUIを構築します。
WildGUI上でのQwen2.5-VLとMimo-VLの事前トレーニングは、複数のGUIグラウンドとアクションベンチマークで5-20%の一貫性のある改善を実現し、最先端のパフォーマンスにマッチまたは超えている。
将来的なGUIエージェントの研究をサポートするために、WildGUIデータセットとVideo2GUIパイプラインの両方をリリースします。
関連論文リスト
- MagicGUI: A Foundational Mobile GUI Agent with Scalable Data Pipeline and Reinforcement Fine-tuning [83.81404871748438]
MagicGUIは、現実のモバイルGUI環境における認識、接地、推論における重要な課題に対処するために設計された、基本的なモバイルGUIエージェントである。
フレームワークには、包括的で正確なデータセット、知覚と接地能力の強化、包括的で統一されたアクション空間、計画指向の推論メカニズムを含む6つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (2025-07-19T12:33:43Z) - GUI-Shift: Enhancing VLM-Based GUI Agents through Self-supervised Reinforcement Learning [21.964100514016504]
GUIエージェントのための効果的なビジョンランゲージモデル(VLM)のトレーニングは通常、大規模な注釈付きデータセットに依存する。
本稿では,2つのGUI状態間の遷移を引き起こす初期動作を予測することで,VLMがGUIダイナミクスを学習する自己教師型逆動的タスクであるKステップGUIトランジションを紹介する。
本稿では,ルールベースの最適化とデータフィルタリングを組み合わせることで,VLM性能を向上させるための強化学習フレームワークであるGUI-Shiftを提案する。
論文 参考訳(メタデータ) (2025-05-18T16:34:30Z) - TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials [70.06743063375121]
リッチなマルチモーダルWebチュートリアルから学習し,汎用GUIエージェントを構築するTongUIフレームワークを提案する。
我々は、5つのオペレーティングシステムと200以上のアプリケーションにまたがる143Kトラジェクトリデータを含むGUI-Netデータセットを作成する。
我々はGUI-Net上でQwen2.5-VL-3B/7Bモデルを微調整してTongUIエージェントを開発する。
論文 参考訳(メタデータ) (2025-04-17T06:15:56Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,画像LLMやビデオLLMなどの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。