論文の概要: UI-Venus-1.5 Technical Report
- arxiv url: http://arxiv.org/abs/2602.09082v1
- Date: Mon, 09 Feb 2026 18:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.187088
- Title: UI-Venus-1.5 Technical Report
- Title(参考訳): UI-Venus-1.5テクニカルレポート
- Authors: Veuns-Team, :, Changlong Gao, Zhangxuan Gu, Yulin Liu, Xinyu Qiu, Shuheng Shen, Yue Wen, Tianyu Xia, Zhenyu Xu, Zhengwen Zeng, Beitong Zhou, Xingran Zhou, Weizhi Chen, Sunhao Dai, Jingya Dou, Yichen Gong, Yuan Guo, Zhenlin Guo, Feng Li, Qian Li, Jinzhen Lin, Yuqi Zhou, Linchao Zhu, Liang Chen, Zhenyu Guo, Changhua Meng, Weiqiang Wang,
- Abstract要約: We present UI-Venus-1.5, an unified, end-to-end GUI Agent。
提案したモデルファミリーは、2つの高密度変種(2Bと8B)と1つの混合専門家変種(30B-A3B)からなる。
さらに、UI-Venus-1.5は、さまざまな中国のモバイルアプリで堅牢なナビゲーション機能を示している。
- 参考スコア(独自算出の注目度): 64.4832043785725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GUI agents have emerged as a powerful paradigm for automating interactions in digital environments, yet achieving both broad generality and consistently strong task performance remains challenging.In this report, we present UI-Venus-1.5, a unified, end-to-end GUI Agent designed for robust real-world applications.The proposed model family comprises two dense variants (2B and 8B) and one mixture-of-experts variant (30B-A3B) to meet various downstream application scenarios.Compared to our previous version, UI-Venus-1.5 introduces three key technical advances: (1) a comprehensive Mid-Training stage leveraging 10 billion tokens across 30+ datasets to establish foundational GUI semantics; (2) Online Reinforcement Learning with full-trajectory rollouts, aligning training objectives with long-horizon, dynamic navigation in large-scale environments; and (3) a single unified GUI Agent constructed via Model Merging, which synthesizes domain-specific models (grounding, web, and mobile) into one cohesive checkpoint. Extensive evaluations demonstrate that UI-Venus-1.5 establishes new state-of-the-art performance on benchmarks such as ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%), and AndroidWorld (77.6%), significantly outperforming previous strong baselines. In addition, UI-Venus-1.5 demonstrates robust navigation capabilities across a variety of Chinese mobile apps, effectively executing user instructions in real-world scenarios. Code: https://github.com/inclusionAI/UI-Venus; Model: https://huggingface.co/collections/inclusionAI/ui-venus
- Abstract(参考訳): GUIエージェントは、デジタル環境におけるインタラクションを自動化するための強力なパラダイムとして登場したが、広範囲にわたる汎用性と一貫したタスクパフォーマンスの両面での達成は依然として困難である。本報告では、堅牢な現実世界アプリケーション用に設計された統合されたエンドツーエンドのGUIエージェントであるUI-Venus-1.5を提示する。提案されたモデルファミリーは、様々な下流アプリケーションシナリオを満たすための2つの密な変種(2Bと8B)と1つの混合専門家の変種(30B-A3B)で構成されている。
UI-Venus-1.5はScreenSpot-Pro (69.6%)、VenusBench-GD (75.0%)、AndroidWorld (77.6%)などのベンチマークで新しい最先端のパフォーマンスを確立し、以前の強力なベースラインを著しく上回っている。
さらに、UI-Venus-1.5は、さまざまな中国のモバイルアプリで堅牢なナビゲーション機能を示し、現実のシナリオでユーザ命令を効果的に実行する。
コード: https://github.com/inclusionAI/UI-Venus; Model: https://huggingface.co/collections/inclusionAI/ui-venus
関連論文リスト
- UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - UI-Venus Technical Report: Building High-performance UI Agents with RFT [43.28453678270454]
マルチモーダルな大言語モデルに基づいてスクリーンショットのみを入力として取り込むネイティブUIエージェントであるUI-Venusを提示する。
数十万の高品質なトレーニングサンプルを使用して、UIグラウンドとナビゲーションタスクの両方でSOTAのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-14T16:58:07Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。