論文の概要: Step-GUI Technical Report
- arxiv url: http://arxiv.org/abs/2512.15431v1
- Date: Wed, 17 Dec 2025 13:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.004295
- Title: Step-GUI Technical Report
- Title(参考訳): Step-GUI技術報告
- Authors: Haolong Yan, Jia Wang, Xin Huang, Yeqing Shen, Ziyang Meng, Zhimin Fan, Kaijun Tan, Jin Gao, Lieyu Shi, Mi Yang, Shiliang Yang, Zhirui Wang, Brian Li, Kang An, Chenyang Li, Lei Lei, Mengmeng Duan, Danxun Liang, Guodong Liu, Hang Cheng, Hao Wu, Jie Dong, Junhao Huang, Mei Chen, Renjie Yu, Shunshan Li, Xu Zhou, Yiting Dai, Yineng Deng, Yingdan Liang, Zelin Chen, Wen Sun, Chengxu Yan, Chunqin Xu, Dong Li, Fengqiong Xiao, Guanghao Fan, Guopeng Li, Guozhen Peng, Hongbing Li, Hang Li, Hongming Chen, Jingjing Xie, Jianyong Li, Jingyang Zhang, Jiaju Ren, Jiayu Yuan, Jianpeng Yin, Kai Cao, Liang Zhao, Liguo Tan, Liying Shi, Mengqiang Ren, Min Xu, Manjiao Liu, Mao Luo, Mingxin Wan, Na Wang, Nan Wu, Ning Wang, Peiyao Ma, Qingzhou Zhang, Qiao Wang, Qinlin Zeng, Qiong Gao, Qiongyao Li, Shangwu Zhong, Shuli Gao, Shaofan Liu, Shisi Gao, Shuang Luo, Xingbin Liu, Xiaojia Liu, Xiaojie Hou, Xin Liu, Xuanti Feng, Xuedan Cai, Xuan Wen, Xianwei Zhu, Xin Liang, Xin Liu, Xin Zhou, Yingxiu Zhao, Yukang Shi, Yunfang Xu, Yuqing Zeng, Yixun Zhang, Zejia Weng, Zhonghao Yan, Zhiguo Huang, Zhuoyu Wang, Zheng Ge, Jing Li, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Daxin Jiang,
- Abstract要約: 本稿では,Calibrated Step Reward Systemを利用した自己進化型トレーニングパイプラインを提案する。
また、最先端のGUI性能を実現するモデル群であるStep-GUIについても紹介する。
エージェントが日常的に使えるかどうかを評価するために,AndroidDailyを紹介した。
- 参考スコア(独自算出の注目度): 83.8844508130908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models unlock unprecedented opportunities for GUI automation. However, a fundamental challenge remains: how to efficiently acquire high-quality training data while maintaining annotation reliability? We introduce a self-evolving training pipeline powered by the Calibrated Step Reward System, which converts model-generated trajectories into reliable training signals through trajectory-level calibration, achieving >90% annotation accuracy with 10-100x lower cost. Leveraging this pipeline, we introduce Step-GUI, a family of models (4B/8B) that achieves state-of-the-art GUI performance (8B: 80.2% AndroidWorld, 48.5% OSWorld, 62.6% ScreenShot-Pro) while maintaining robust general capabilities. As GUI agent capabilities improve, practical deployment demands standardized interfaces across heterogeneous devices while protecting user privacy. To this end, we propose GUI-MCP, the first Model Context Protocol for GUI automation with hierarchical architecture that combines low-level atomic operations and high-level task delegation to local specialist models, enabling high-privacy execution where sensitive data stays on-device. Finally, to assess whether agents can handle authentic everyday usage, we introduce AndroidDaily, a benchmark grounded in real-world mobile usage patterns with 3146 static actions and 235 end-to-end tasks across high-frequency daily scenarios (8B: static 89.91%, end-to-end 52.50%). Our work advances the development of practical GUI agents and demonstrates strong potential for real-world deployment in everyday digital interactions.
- Abstract(参考訳): マルチモーダルな大規模言語モデルの最近の進歩は、GUI自動化の先例のない機会を解放している。
しかし、基本的な課題は残る: アノテーションの信頼性を維持しながら、高品質なトレーニングデータを効率的に取得する方法。
モデル生成トラジェクトリをトラジェクトリレベルのキャリブレーションによって信頼性の高いトレーニング信号に変換し、10-100倍のコストで90%以上の精度でアノテーションを精度良く達成する、Calibrated Step Reward Systemによる自己進化型トレーニングパイプラインを導入する。
このパイプラインを活用して、最先端のGUIパフォーマンス(8B: 80.2% AndroidWorld、48.5% OSWorld、62.6% ScreenShot-Pro)を実現するモデルのファミリー(4B/8B)であるStep-GUIを紹介します。
GUIエージェントの能力が向上するにつれて、ユーザプライバシを保護すると同時に、異機種間のインターフェースの標準化が要求される。
そこで本研究では,GUI自動化のための最初のモデルコンテキストプロトコルであるGUI-MCPを提案する。
最後に、エージェントが真の日常的使用を処理できるかどうかを評価するために、AndroidDailyを紹介します。これは、3146の静的アクションと235のエンドツーエンドタスク(8B: static 89.91%、 end-to-end 52.50%)を備えた、実世界のモバイル利用パターンを基盤としたベンチマークです。
本研究は,実用的なGUIエージェントの開発を推進し,日々のデジタルインタラクションにおける現実世界の展開の可能性を示すものである。
関連論文リスト
- UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - Breaking the Data Barrier -- Building GUI Agents Through Task Generalization [25.129269032612832]
本研究では,データ豊かで推論集約的なタスクにおける視覚言語モデル(VLM)のトレーニングを提案する。
本稿では,GUI認識,マルチモーダル推論,テキスト推論など,手軽に利用できるインストラクションチューニングデータを用いて,さまざまなタスクを探索する。
われわれの研究はGUIエージェントのドメイン間知識伝達に関する貴重な知見を提供し、データの不足に対処するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-04-14T11:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。