論文の概要: Learning with Challenges: Adaptive Difficulty-Aware Data Generation for Mobile GUI Agent Training
- arxiv url: http://arxiv.org/abs/2601.22781v1
- Date: Fri, 30 Jan 2026 10:03:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.370579
- Title: Learning with Challenges: Adaptive Difficulty-Aware Data Generation for Mobile GUI Agent Training
- Title(参考訳): 挑戦による学習:モバイルGUIエージェント訓練のための適応的難易度データ生成
- Authors: Linjia Kang, Zhimin Wang, Yongkang Zhang, Duo Wu, Jinghe Wang, Ming Ma, Haopeng Yan, Zhi Wang,
- Abstract要約: MobileGenは、GUIエージェントの機能フロンティアとトレーニングの難しさを一致させる、新しいデータ生成フレームワークである。
GUIエージェントの平均性能を1.57倍改善することで、既存のデータ生成手法を一貫して上回っている。
このことは、効果的なモバイルGUIエージェントトレーニングにおける機能整合データ生成の重要性を強調している。
- 参考スコア(独自算出の注目度): 10.376682582953046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale, high-quality interaction trajectories are essential for advancing mobile Graphical User Interface (GUI) agents. While existing methods typically rely on labor-intensive human demonstrations or automated model exploration to generate GUI trajectories, they lack fine-grained control over task difficulty. This fundamentally restricts learning effectiveness due to the mismatch between the training difficulty and the agent's capabilities. Inspired by how humans acquire skills through progressively challenging tasks, we propose MobileGen, a novel data generation framework that adaptively aligns training difficulty with the GUI agent's capability frontier. Specifically, MobileGen explicitly decouples task difficulty into structural (e.g., trajectory length) and semantic (e.g., task goal) dimensions. It then iteratively evaluates the agent on a curated prior dataset to construct a systematic profile of its capability frontier across these two dimensions. With this profile, the probability distribution of task difficulty is adaptively computed, from which the target difficulty for the next round of training can be sampled. Guided by the sampled difficulty, a multi-agent controllable generator is finally used to synthesize high-quality interaction trajectories along with corresponding task instructions. Extensive experiments show that MobileGen consistently outperforms existing data generation methods by improving the average performance of GUI agents by 1.57 times across multiple challenging benchmarks. This highlights the importance of capability-aligned data generation for effective mobile GUI agent training.
- Abstract(参考訳): モバイルグラフィカルユーザインタフェース(GUI)エージェントの進行には,大規模かつ高品質なインタラクショントラジェクトリが不可欠である。
既存の手法は通常、GUIトラジェクトリを生成するために労働集約的な人間のデモンストレーションや自動モデル探索に頼っているが、それらはタスクの難易度をきめ細かな制御を欠いている。
これは、訓練難易度とエージェントの能力のミスマッチによる学習効率を根本的に制限する。
そこで我々は,GUIエージェントの能力フロンティアとトレーニングの難しさを適応的に整合させる新しいデータ生成フレームワークであるMobileGenを提案する。
具体的には、MobileGenはタスクの難易度を構造的(軌道長など)と意味的(タスクゴールなど)に明確に分離する。
その後、キュレートされた事前データセット上のエージェントを反復的に評価し、これらの2次元にわたる能力フロンティアの体系的なプロファイルを構築する。
このプロファイルにより、タスク難易度分布の確率分布を適応的に計算し、次の学習ラウンドの目標難易度をサンプリングすることができる。
サンプルの難易度から導かれたマルチエージェント制御可能ジェネレータは、対応するタスク命令とともに高品質な相互作用軌跡を合成するために最終的に使用される。
大規模な実験により、MobileGenは既存のデータ生成手法を一貫して上回り、複数の挑戦的なベンチマークでGUIエージェントの平均性能を1.57倍改善した。
このことは、効果的なモバイルGUIエージェントトレーニングにおける機能整合データ生成の重要性を強調している。
関連論文リスト
- Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation [65.3648667980258]
視覚言語モデル(VLM)に基づくGUIエージェントは複雑なタスクの自動化を約束するが、強化学習(RL)の適用において大きな課題に直面している。
異種モジュールを高度に非結合的に協調するGUIエージェントのための非結合エージェントRLトレーニングフレームワークであるDARTを提案する。
OSWorldのベンチマークでは、DART-GUI-7Bは42.13%のタスク成功率、14.61%の絶対ゲイン、オープンソースSOTAよりも7.34%高い。
論文 参考訳(メタデータ) (2025-09-28T13:19:20Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents [37.871793585090586]
GUIエージェントにおける2つの重要な課題に対処する自己改善フレームワークであるUI-Genieを紹介する。
軌道結果の検証は困難であり、高品質なトレーニングデータはスケーラブルではない。
UI-Genieは複数のGUIエージェントベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-27T17:58:06Z) - Breaking the Data Barrier -- Building GUI Agents Through Task Generalization [25.129269032612832]
本研究では,データ豊かで推論集約的なタスクにおける視覚言語モデル(VLM)のトレーニングを提案する。
本稿では,GUI認識,マルチモーダル推論,テキスト推論など,手軽に利用できるインストラクションチューニングデータを用いて,さまざまなタスクを探索する。
われわれの研究はGUIエージェントのドメイン間知識伝達に関する貴重な知見を提供し、データの不足に対処するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-04-14T11:35:02Z) - OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.390060529534644]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。
我々は,OS-Genesisを用いたGUIエージェントのトレーニングにより,高度に挑戦するオンラインベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-12-27T16:21:58Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。