論文の概要: UI-Venus Technical Report: Building High-performance UI Agents with RFT
- arxiv url: http://arxiv.org/abs/2508.10833v1
- Date: Thu, 14 Aug 2025 16:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.420944
- Title: UI-Venus Technical Report: Building High-performance UI Agents with RFT
- Title(参考訳): UI-Venus Technical Report: RFTによる高性能UIエージェントの構築
- Authors: Zhangxuan Gu, Zhengwen Zeng, Zhenyu Xu, Xingran Zhou, Shuheng Shen, Yunfei Liu, Beitong Zhou, Changhua Meng, Tianyu Xia, Weizhi Chen, Yue Wen, Jingya Dou, Fei Tang, Jinzhen Lin, Yulin Liu, Zhenlin Guo, Yichen Gong, Heng Jia, Changlong Gao, Yuan Guo, Yong Deng, Zhenyu Guo, Liang Chen, Weiqiang Wang,
- Abstract要約: マルチモーダルな大言語モデルに基づいてスクリーンショットのみを入力として取り込むネイティブUIエージェントであるUI-Venusを提示する。
UI-Venusは、数万の高品質なトレーニングサンプルを使用して、UIグラウンディングとナビゲーションタスクの両方でSOTAパフォーマンスを達成する。
コントリビューションには、SOTAオープンソースUIエージェントのパブリッシュ、包括的なデータクリーニングプロトコル、ナビゲーション性能を改善するための新しい自己進化フレームワークなどが含まれます。
- 参考スコア(独自算出の注目度): 43.28453678270454
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present UI-Venus, a native UI agent that takes only screenshots as input based on a multimodal large language model. UI-Venus achieves SOTA performance on both UI grounding and navigation tasks using only several hundred thousand high-quality training samples through reinforcement finetune (RFT) based on Qwen2.5-VL. Specifically, the 7B and 72B variants of UI-Venus obtain 94.1% / 50.8% and 95.3% / 61.9% on the standard grounding benchmarks, i.e., Screenspot-V2 / Pro, surpassing the previous SOTA baselines including open-source GTA1 and closed-source UI-TARS-1.5.To show UI-Venus's summary and planing ability, we also evaluate it on the AndroidWorld, an online UI navigation arena, on which our 7B and 72B variants achieve 49.1% and 65.9% success rate, also beating existing models.To achieve this, we introduce carefully designed reward functions for both UI grounding and navigation tasks and corresponding efficient data cleaning strategies.To further boost navigation performance, we propose Self-Evolving Trajectory History Alignment \& Sparse Action Enhancement that refine historical reasoning traces and balances the distribution of sparse but critical actions, leading to more coherent planning and better generalization in complex UI tasks. Our contributions include the publish of SOTA open-source UI agents, comprehensive data cleaning protocols and a novel self-evolving framework for improving navigation performance, which encourage further research and development in the community. Code is available at https://github.com/antgroup/UI-Venus.
- Abstract(参考訳): マルチモーダルな大言語モデルに基づいてスクリーンショットのみを入力として取り込むネイティブUIエージェントであるUI-Venusを提示する。
UI-Venusは、Qwen2.5-VLに基づく強化細管(RFT)を通じて、数万の高品質なトレーニングサンプルを使用して、UIグラウンドとナビゲーションタスクの両方でSOTAパフォーマンスを達成する。
具体的には、UI-Venusの7Bと72Bの変種が94.1% / 50.8%、95.3% / 61.9%の標準グラウンドベンチマーク、すなわち、Screenspot-V2 / Proは、オープンソースのGTA1やクローズドソースのUI-TARS-1.5を含む以前のSOTAベースラインを上回り、UI-Venusの要約と計画能力を示すために、我々の7Bと72Bの変種が49.1%と65.9%の成功率を達成するオンラインUIナビゲーションアリーナであるAndroidWorldでも評価を行い、既存のモデルに勝利する。これを実現するために、我々は、UIグラウンドとナビゲーションとそれに対応するデータクリーニング戦略の両方のための設計された報酬関数を慎重に導入する。
コントリビューションには、SOTAオープンソースUIエージェントの公開、包括的データクリーニングプロトコル、ナビゲーション性能を改善するための新たな自己進化フレームワークなどが含まれます。
コードはhttps://github.com/antgroup/UI-Venus.comで入手できる。
関連論文リスト
- Toward Autonomous UI Exploration: The UIExplorer Benchmark [10.669221849705165]
UIエクスプローラーベンチ(UIExplore-Bench)は、UI探索に特化した最初のベンチマークである。
ベンチマークでは、標準化されたGitLabサンドボックス環境において、構造化モード(DOMツリーのようなレイアウト情報へのアクセスをグラニングする)またはスクリーンモード(スクリーンショットやヒューマンライクなマウス/キーボードのインタラクションのようなGUIのみの観察に基づいて)のエージェントを3つのレベルにわたって評価している。
以上の結果から,UIExplore-AlGoは平均hUFOスコアを最大77.2%,スクリーンモードは最大59.0%,Sparseレベルは特に優れていた。
論文 参考訳(メタデータ) (2025-06-21T18:16:27Z) - UI-R1: Enhancing Efficient Action Prediction of GUI Agents by Reinforcement Learning [31.796328505473305]
UI-R1は、ルールベースのRLがGUIアクション予測タスクのためのマルチモーダル大言語モデル(MLLM)の推論能力をどのように向上するかを探求する最初のフレームワークである。
具体的には、UI-R1が新しいルールベースのアクション報酬を導入し、グループ相対ポリシー最適化(GRPO)のようなポリシーベースのアルゴリズムによるモデル最適化を可能にする。
効率的なトレーニングのために、モバイルデバイス上で5つの一般的なアクションタイプを含む136の課題タスクからなる、小さくて高品質なデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-03-27T15:39:30Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。
実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。
評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-10-28T17:05:10Z) - GUIOdyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices [47.98821056800437]
クロスプラットフォームなモバイルGUIナビゲーションのためのデータセットであるGUIOdysseyを提示する。
GuiOdysseyは8,334エピソードで構成され、平均15.3ステップで6つのモバイルデバイス、212の異なるアプリ、1,357のアプリの組み合わせをカバーしている。
我々は,履歴リサンプラーモジュールを備えた長期横断ナビゲーションのための探索的マルチモーダルエージェントであるOdysseyAgentを開発した。
論文 参考訳(メタデータ) (2024-06-12T17:44:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。