論文の概要: UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents
- arxiv url: http://arxiv.org/abs/2505.21496v1
- Date: Tue, 27 May 2025 17:58:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.85341
- Title: UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents
- Title(参考訳): UI-Genie: MLLMベースのモバイルGUIエージェントを反復的に強化するための自己改善アプローチ
- Authors: Han Xiao, Guozhi Wang, Yuxiang Chai, Zimu Lu, Weifeng Lin, Hao He, Lue Fan, Liuyang Bian, Rui Hu, Liang Liu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Aojun Zhou, Hongsheng Li,
- Abstract要約: GUIエージェントにおける2つの重要な課題に対処する自己改善フレームワークであるUI-Genieを紹介する。
軌道結果の検証は困難であり、高品質なトレーニングデータはスケーラブルではない。
UI-Genieは複数のGUIエージェントベンチマークで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 37.871793585090586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce UI-Genie, a self-improving framework addressing two key challenges in GUI agents: verification of trajectory outcome is challenging and high-quality training data are not scalable. These challenges are addressed by a reward model and a self-improving pipeline, respectively. The reward model, UI-Genie-RM, features an image-text interleaved architecture that efficiently pro- cesses historical context and unifies action-level and task-level rewards. To sup- port the training of UI-Genie-RM, we develop deliberately-designed data genera- tion strategies including rule-based verification, controlled trajectory corruption, and hard negative mining. To address the second challenge, a self-improvement pipeline progressively expands solvable complex GUI tasks by enhancing both the agent and reward models through reward-guided exploration and outcome verification in dynamic environments. For training the model, we generate UI- Genie-RM-517k and UI-Genie-Agent-16k, establishing the first reward-specific dataset for GUI agents while demonstrating high-quality synthetic trajectory gen- eration without manual annotation. Experimental results show that UI-Genie achieves state-of-the-art performance across multiple GUI agent benchmarks with three generations of data-model self-improvement. We open-source our complete framework implementation and generated datasets to facilitate further research in https://github.com/Euphoria16/UI-Genie.
- Abstract(参考訳): 本稿では,GUIエージェントにおける2つの重要な課題に対処する自己改善フレームワークであるUI-Genieを紹介する。
これらの課題は、それぞれ報酬モデルと自己改善パイプラインによって対処される。
報酬モデルであるUI-Genie-RMは、歴史的文脈を効果的に支持し、アクションレベルとタスクレベルの報酬を統一するイメージテキストインターリーブアーキテクチャを備えている。
UI-Genie-RMのトレーニングを即時移植するために、ルールベースの検証、制御された軌道汚職、ハードネガティブマイニングを含む意図的に設計されたデータジェネラ-オン戦略を開発した。
第2の課題に対処するために、自己改善パイプラインは、動的環境における報酬誘導探索と結果検証を通じてエージェントと報酬モデルの両方を拡張することで、解決可能な複雑なGUIタスクを段階的に拡張する。
このモデルをトレーニングするために、UI-Genie-RM-517kとUI-Genie-Agent-16kを生成し、GUIエージェントのための最初の報酬特化データセットを確立し、手動のアノテーションを使わずに高品質な合成軌道 gen- eration を実証した。
実験の結果、UI-Genieは3世代にわたるデータモデル自己改善を伴う複数のGUIエージェントベンチマークで最先端のパフォーマンスを実現していることがわかった。
我々は、フレームワークの完全な実装と生成されたデータセットをオープンソース化し、https://github.com/Euphoria16/UI-Genie.orgでさらなる研究を促進する。
関連論文リスト
- GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent [66.34801160469067]
MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。
本稿では,2つの基本的なメカニズムを組み込んだトレーニング不要なGUIエージェントであるGUI-Explorerを提案する。
SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-05-22T16:01:06Z) - UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis [15.429065788185522]
様々な複雑な命令データセットを生成するために,大規模なデータ合成パイプライン UI-E2I- Synth を導入する。
既存のベンチマークの限界に対処する新しいGUI命令基底ベンチマークであるUI-I2E-Benchを提案する。
合成データに基づいて学習した本モデルは,GUI命令のグラウンドリングにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2025-04-15T14:56:21Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.390060529534644]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。
我々は,OS-Genesisを用いたGUIエージェントのトレーニングにより,高度に挑戦するオンラインベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-12-27T16:21:58Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。