論文の概要: MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research
- arxiv url: http://arxiv.org/abs/2605.26114v2
- Date: Wed, 27 May 2026 05:27:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.072812
- Title: MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research
- Title(参考訳): MobileGym:モバイルGUIエージェント研究のための検証可能な高並列シミュレーションプラットフォーム
- Authors: Dingbang Wu, Rui Hao, Haiyang Wang, Shuzhe Wu, Han Xiao, Zhenghong Li, Bojiang Zhou, Zheng Ju, Zichen Liu, Lue Fan, Zhaoxiang Zhang,
- Abstract要約: MobileGymは、日常的なモバイル利用のための軽量で完全に制御可能な環境である。
階層化された状態モデルと宣言的なタスク定義フレームワークは、状態のプログラマビリティとタスク作成を大規模に実践的に保ちます。
単一のプログラム的判断メカニズムは、決定論的評価評価と高密度報酬の両方を提供する。
- 参考スコア(独自算出の注目度): 39.68394140712043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MobileGym, a browser-hosted, lightweight, fully controllable environment for everyday mobile use, targeting interaction fidelity without replicating proprietary backends. It enables two capabilities previously out of reach for everyday apps: verifiable outcome signals through deterministic state-based judging over structured JSON state, and scalable online RL through low-cost parallel rollouts. The full environment state is captured, configured, forked, and compared as structured JSON, and a single server can host hundreds of parallel instances, with about 400 MB memory per instance and about 3 s cold start. A layered state model and a declarative task-definition framework keep state programmability and task creation practical at scale, and a single programmatic judging mechanism delivers both deterministic evaluation verdicts and dense RL rewards. The accompanying MobileGym-Bench provides 416 parameterized task templates, including 256 test and 160 train templates, over 28 apps, with deterministic judges and a structured AnswerSheet protocol that avoids free-text matching failures. In a Sim-to-Real case study, GRPO on Qwen3-VL-4B-Instruct gains +12.8 percentage points on the 256-task test set, and on a 59-task real-device signal subset, real-device execution retains 95.1% of the simulation-side training gain. Project page: https://mobilegym.github.io.
- Abstract(参考訳): ブラウザがホストし、軽量で、完全にコントロール可能な、日常的なモバイル利用環境であるMobileGymを、プロプライエタリなバックエンドを複製することなく、インタラクションの忠実度を目標としています。
構造化されたJSON状態に対する決定論的状態ベースの判断による結果信号の検証と、低コストの並列ロールアウトによるスケーラブルなオンラインRLだ。
完全な環境状態はキャプチャされ、設定され、フォークされ、構造化されたJSONとして比較され、単一のサーバが数百の並列インスタンスをホストできる。
階層化された状態モデルと宣言的タスク定義フレームワークは、状態のプログラマビリティとタスク作成を大規模に実践し、単一のプログラム的判断メカニズムは決定論的評価評価と密度の高いRL報酬の両方を提供する。
MobileGym-Benchは、256のテストと160のトレインテンプレートを含む416のパラメータ化されたタスクテンプレートを提供し、28以上のアプリに決定論的判断と、自由なテキストマッチングの失敗を避ける構造化されたAnswerSheetプロトコルを提供する。
Sim-to-Realのケーススタディでは、Qwen3-VL-4B-InstructのGRPOは256タスクテストセットで+12.8ポイント、59タスクの実デバイス信号サブセットでは、実デバイス実行はシミュレーション側のトレーニング利得の95.1%を維持している。
プロジェクトページ: https://mobilegym.github.io.com
関連論文リスト
- WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation [88.10947115397971]
この研究でWildClawBenchは、6つのテーマのカテゴリにまたがる60の人間によるバイリンガルなマルチモーダルタスクのネイティブランタイムベンチマークである。
各タスクは、約8分間のウォールクロック時間と20以上のツールコールで実行されます。
グラディングはハイブリッドであり、決定論的ルールベースのチェック、副作用の環境状態監査、意味的検証のためのLLM/VLM判定を組み合わせている。
論文 参考訳(メタデータ) (2026-05-11T17:49:43Z) - OneDrive: Unified Multi-Paradigm Driving with Vision-Language-Action Models [69.2503510410147]
予め訓練されたVLM上に構築した統合自動運転フレームワークを提案する。
トレーニング済みのVLMアテンションは、純粋言語モデリング以上の強い伝達性を示すことを示す。
エンドツーエンドの自動運転ベンチマークの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-04-20T07:50:00Z) - UNIFERENCE: A Discrete Event Simulation Framework for Developing Distributed AI Models [0.42015796373418257]
UNIは、分散AIモデルの開発とベンチマーク、デプロイのための離散イベントシミュレーションフレームワークである。
PyTorch Distributedとシームレスに統合され、シミュレーションから実際のデプロイメントへの移行を可能にする。
論文 参考訳(メタデータ) (2026-03-27T14:35:02Z) - SKILLS: Structured Knowledge Injection for LLM-Driven Telecommunications Operations [0.0]
汎用言語モデル(LLM)エージェントは、実際のAPIインターフェースを介して通信操作を実行するか、あるいは、構造化されたドメインガイダンスを必要とするか?
8 TM Forum Open APIドメインにまたがる37の通信シナリオからなるベンチマークフレームワークであるSKILLSを紹介した。
5つのオープンウェイトモデル条件と185のシナリオランの結果は、すべてのモデルで一貫したスキルリフトを示している。
論文 参考訳(メタデータ) (2026-03-16T14:48:53Z) - SimpleTool: Parallel Decoding for Real-Time LLM Function Calling [21.7429929239065]
SimpleToolは3-6倍のスピードアップ(最大9.6倍)を実現し、並列化オーバーヘッドは+8.2%である。
Mobile Actionsでは、ST-Qwen-0.5BはGoogleのFunctionGemmaよりも精度とレイテンシの一貫性が優れている。
論文 参考訳(メタデータ) (2026-02-04T08:58:27Z) - David vs. Goliath: A comparative study of different-sized LLMs for code generation in the domain of automotive scenario generation [1.6752458252726459]
大きな言語モデル(LLM)を持つNL-to-Scenic生成は、少ないデータ、限られたメトリクスに悩まされる。
NL2Scenicは146組のNL/Scenicペアを持つオープンデータセットとフレームワークであり、難易度の高い30ケースのテスト分割とサンプルレトリバーを紹介する。
4つのプロプライエタリ(GPT-4o, GPT-5, Claude-Sonnet-4, Gemini-2.5-pro)と9つのオープンソースコードモデル(Qwen2.5Coder 0.5B-32B; CodeLlama 7B/13B/34B)を評価した。
論文 参考訳(メタデータ) (2025-10-15T21:37:02Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - On-Device LLMs for Home Assistant: Dual Role in Intent Detection and Response Generation [5.500769111819106]
本稿では,Large Language Models (LLM) が,スマートホームアシスタントのためのスロットとインテントの検出と自然言語応答生成という2つのタスクを遂行できるかどうかを検討する。
LLMを微調整してアクションコールとテキスト応答の両方を生成します。
実験により、16ビットおよび8ビットの量子化変種はスロットとインテントの検出において高い精度を保ち、生成したテキストの強いセマンティックコヒーレンスを維持することを示した。
論文 参考訳(メタデータ) (2025-02-18T15:03:17Z) - Learning Cross-Modal Affinity for Referring Video Object Segmentation
Targeting Limited Samples [61.66967790884943]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のシーンに十分なデータに依存する。
より現実的なシナリオでは、新しいシーンで利用できるのは最小限のアノテーションだけです。
トランスフォーマーアーキテクチャに基づいた,新たに設計したクロスモーダル親和性(CMA)モジュールを用いたモデルを提案する。
CMAモジュールは、いくつかのサンプルでマルチモーダル親和性を構築し、新しいセマンティック情報を素早く学習し、モデルが異なるシナリオに適応できるようにする。
論文 参考訳(メタデータ) (2023-09-05T08:34:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。