論文の概要: OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis
- arxiv url: http://arxiv.org/abs/2604.15093v1
- Date: Thu, 16 Apr 2026 14:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.958598
- Title: OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis
- Title(参考訳): OpenMobile: タスクと軌道合成によるオープンモバイルエージェントの構築
- Authors: Kanzhi Cheng, Zehao Li, Zheng Ma, Nuo Chen, Jialin Cao, Qiushi Sun, Zichen Ding, Fangzhi Xu, Hang Yan, Jiajun Chen, Anh Tuan Luu, Jianbing Zhang, Lewei Lu, Dahua Lin,
- Abstract要約: 高品質なタスク命令とエージェントトラジェクトリを合成するオープンソースフレームワークであるOpenMobileについて述べる。
データに基づいてトレーニングされたエージェントは、3つの動的モバイルエージェントベンチマークで競合する結果を得る。
- 参考スコア(独自算出の注目度): 98.43366988856592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mobile agents powered by vision-language models have demonstrated impressive capabilities in automating mobile tasks, with recent leading models achieving a marked performance leap, e.g., nearly 70% success on AndroidWorld. However, these systems keep their training data closed and remain opaque about their task and trajectory synthesis recipes. We present OpenMobile, an open-source framework that synthesizes high-quality task instructions and agent trajectories, with two key components: (1) The first is a scalable task synthesis pipeline that constructs a global environment memory from exploration, then leverages it to generate diverse and grounded instructions. and (2) a policy-switching strategy for trajectory rollout. By alternating between learner and expert models, it captures essential error-recovery data often missing in standard imitation learning. Agents trained on our data achieve competitive results across three dynamic mobile agent benchmarks: notably, our fine-tuned Qwen2.5-VL and Qwen3-VL reach 51.7% and 64.7% on AndroidWorld, far surpassing existing open-data approaches. Furthermore, we conduct transparent analyses on the overlap between our synthetic instructions and benchmark test sets, and verify that performance gains stem from broad functionality coverage rather than benchmark overfitting. We release data and code at https://njucckevin.github.io/openmobile/ to bridge the data gap and facilitate broader mobile agent research.
- Abstract(参考訳): ビジョン言語モデルを活用したモバイルエージェントは、モバイルタスクの自動化において、印象的な機能を示し、最近の主要なモデルでは、AndroidWorldで70%近い成功を収めている。
しかし、これらのシステムはトレーニングデータをクローズし、タスクや軌道合成のレシピについて不透明なままに保ちます。
高品質なタスク命令とエージェントトラジェクトリを合成するオープンソースフレームワークであるOpenMobileについて,(1)グローバル環境メモリを探索から構築するスケーラブルなタスク合成パイプラインを用いて,多種多様な基底命令を生成する。
および(2)軌道展開のための方針変更戦略。
学習者と専門家のモデルを交互に組み合わせることで、標準的な模倣学習でしばしば欠落する重要なエラー回復データをキャプチャする。
データに基づいてトレーニングされたエージェントは、3つの動的モバイルエージェントベンチマークの競合的な結果を達成する。特に、私たちの微調整されたQwen2.5-VLとQwen3-VLは、AndroidWorldで51.7%、64.7%に達し、既存のオープンデータアプローチをはるかに上回っている。
さらに、合成命令とベンチマークテストセットの重複を透過的に分析し、ベンチマークオーバーフィッティングよりも広範な機能カバレッジによる性能向上を検証した。
データギャップを埋め、より広範なモバイルエージェントの研究を促進するために、https://njucckevin.github.io/openmobile/でデータとコードをリリースします。
関連論文リスト
- OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution [32.992104943415995]
OmegaUseは、モバイルプラットフォームとデスクトッププラットフォームの両方で自律的なタスク実行のための汎用GUIエージェントモデルである。
既存のGUIベンチマークでは高い競争力があり、ScreenSpot-V2で96.3%のSOTA(State-of-the-art)スコアを達成している。
OS-Navでは74.24%がChiM-Navで、平均55.9%がUbu-Navで成功している。
論文 参考訳(メタデータ) (2026-01-28T08:45:17Z) - OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis [70.39500621448383]
オープンワールドのモバイル操作タスクは、オープンエンドの命令や環境への一般化が必要なため、依然として課題である。
本稿では,多視点のシーンフレームとエージェント状態を維持した新しいマルチモーダルエージェントアーキテクチャを提案する。
我々は,グローバルなシーン理解,ロボットの状態追跡,マルチモーダルアクション生成を統一モデルで実現した,モバイルマニピュレータのための基礎モデルであるOWMM-VLMについて紹介する。
論文 参考訳(メタデータ) (2025-06-04T17:57:44Z) - EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments [11.97783742296183]
Embodied Mobile Manipulation in Open Environmentsは、エージェントがユーザーの指示を解釈し、連続した空間で長時間の日常的なタスクを実行する必要があるベンチマークである。
Open EnvironmentsにおけるEmbodied Mobile Manipulationは、より多様な評価のための3つの新しいメトリクスとともに、ハイレベルで低レベルな実施タスクを統一されたフレームワークにシームレスに統合します。
We design model, a sophisticated agent system, a LLM with Direct Preference Optimization (DPO), light weighted navigation and operation model, and multiple error detection mechanism。
論文 参考訳(メタデータ) (2025-03-11T16:42:36Z) - Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [72.29426995154088]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。
近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。
これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-04T11:50:58Z) - Generative Adversarial Networks for Annotated Data Augmentation in Data
Sparse NLU [0.76146285961466]
データスパーシティは、自然言語理解におけるモデル開発に関連する重要な課題の1つです。
GAN (Sequence Generative Adversarial Network) を用いたトレーニングデータ拡張によるNLUモデルの性能向上について報告する。
本実験により, 逐次生成逆数ネットワークを用いて生成した合成データにより, 複数の指標間で大きな性能向上が得られた。
論文 参考訳(メタデータ) (2020-12-09T20:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。