論文の概要: Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents
- arxiv url: http://arxiv.org/abs/2505.12632v1
- Date: Mon, 19 May 2025 02:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.360867
- Title: Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents
- Title(参考訳): クロスプラットフォームモバイルエージェントのためのスケーラブルなビデオ・データセット生成
- Authors: Yunseok Jang, Yeda Song, Sungryull Sohn, Lajanugen Logeswaran, Tiange Luo, Dong-Ki Kim, Kyunghoon Bae, Honglak Lee,
- Abstract要約: 実世界のモバイルOSナビゲーションをキャプチャする20Kの指導ビデオから,313Kの注釈付きフレームの大規模データセットであるMONDAYを紹介した。
MONDAYを事前学習フェーズに含むモデルは、堅牢なクロスプラットフォームの一般化機能を示す。
公開されているビデオコンテンツを利用して、包括的なタスクデータセットを作成する自動化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 57.59830804627066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) and Vision-Language Models (VLMs) have sparked significant interest in developing GUI visual agents. We introduce MONDAY (Mobile OS Navigation Task Dataset for Agents from YouTube), a large-scale dataset of 313K annotated frames from 20K instructional videos capturing diverse real-world mobile OS navigation across multiple platforms. Models that include MONDAY in their pre-training phases demonstrate robust cross-platform generalization capabilities, consistently outperforming models trained on existing single OS datasets while achieving an average performance gain of 18.11%p on an unseen mobile OS platform. To enable continuous dataset expansion as mobile platforms evolve, we present an automated framework that leverages publicly available video content to create comprehensive task datasets without manual annotation. Our framework comprises robust OCR-based scene detection (95.04% F1score), near-perfect UI element detection (99.87% hit ratio), and novel multi-step action identification to extract reliable action sequences across diverse interface configurations. We contribute both the MONDAY dataset and our automated collection framework to facilitate future research in mobile OS navigation.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) とVision-Language Models (VLMs) の進歩はGUI視覚エージェントの開発に大きな関心を呼んだ。
モバイルOSナビゲーションタスクデータセットであるMONDAY(Mobile OS Navigation Task Dataset for Agents from YouTube)を紹介した。これは,複数のプラットフォームにわたる多様な実世界のモバイルOSナビゲーションをキャプチャする20Kのインストラクショナルビデオから,313Kの注釈付きフレームの大規模データセットである。
MONDAYをトレーニング済みのフェーズに含むモデルは、堅牢なクロスプラットフォームの一般化能力を示し、既存の単一のOSデータセットでトレーニングされたモデルよりも一貫して優れ、また、目に見えないモバイルOSプラットフォームでは平均18.11%pの性能向上を達成した。
モバイルプラットフォームが進化するにつれて、継続的なデータセット拡張を可能にするために、公開されているビデオコンテンツを活用して、手作業によるアノテーションを使わずに包括的なタスクデータセットを作成する自動化フレームワークを提案する。
我々のフレームワークは、堅牢なOCRベースのシーン検出(95.04%F1score)、ほぼ完全なUI要素検出(99.87%ヒット率)、および多様なインタフェース構成の信頼性のあるアクションシーケンスを抽出する新しいマルチステップアクション識別を含む。
モバイルOSナビゲーションの今後の研究を促進するため,MONDAYデータセットと自動収集フレームワークの両方にコントリビュートする。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。
AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文 参考訳(メタデータ) (2024-07-03T17:59:58Z) - General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Mobile Foundation Model as Firmware [13.225478051091763]
sysはモバイルOSとハードウェアの協調管理アプローチである。
公開されているLarge Language Models (LLM) のキュレートされた選択と、動的データフローの促進を両立させる。
タスクの85%で精度を同等にし、ストレージとメモリのスケーラビリティを改善し、十分な推論速度を提供する。
論文 参考訳(メタデータ) (2023-08-28T07:21:26Z) - Seer: Language Instructed Video Prediction with Latent Diffusion Models [43.708550061909754]
テキスト条件付きビデオ予測(TVP)は,一般的なロボットポリシー学習を促進する上で不可欠な課題である。
時間軸に沿って,事前訓練されたテキスト・ツー・イメージ(T2I)の安定拡散モデルを膨らませることで,サンプルモデルと計算効率のよいtextbfSeerを提案する。
適応設計のアーキテクチャにより、Seerは高忠実でコヒーレントで命令に準拠したビデオフレームを生成することができる。
論文 参考訳(メタデータ) (2023-03-27T03:12:24Z) - Multi-Robot Deep Reinforcement Learning for Mobile Navigation [82.62621210336881]
階層的統合モデル(HInt)を用いた深層強化学習アルゴリズムを提案する。
トレーニング時には、HIntは別々の知覚モデルとダイナミクスモデルを学び、テスト時には、HIntは2つのモデルを階層的な方法で統合し、統合モデルとアクションを計画する。
我々のモバイルナビゲーション実験は、HIntが従来の階層的ポリシーや単一ソースアプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-06-24T19:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。