論文の概要: UI-Venus Technical Report: Building High-performance UI Agents with RFT
- arxiv url: http://arxiv.org/abs/2508.10833v2
- Date: Fri, 15 Aug 2025 14:49:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 12:50:03.141192
- Title: UI-Venus Technical Report: Building High-performance UI Agents with RFT
- Title(参考訳): UI-Venus Technical Report: RFTによる高性能UIエージェントの構築
- Authors: Zhangxuan Gu, Zhengwen Zeng, Zhenyu Xu, Xingran Zhou, Shuheng Shen, Yunfei Liu, Beitong Zhou, Changhua Meng, Tianyu Xia, Weizhi Chen, Yue Wen, Jingya Dou, Fei Tang, Jinzhen Lin, Yulin Liu, Zhenlin Guo, Yichen Gong, Heng Jia, Changlong Gao, Yuan Guo, Yong Deng, Zhenyu Guo, Liang Chen, Weiqiang Wang,
- Abstract要約: マルチモーダルな大言語モデルに基づいてスクリーンショットのみを入力として取り込むネイティブUIエージェントであるUI-Venusを提示する。
数十万の高品質なトレーニングサンプルを使用して、UIグラウンドとナビゲーションタスクの両方でSOTAのパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 43.28453678270454
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present UI-Venus, a native UI agent that takes only screenshots as input based on a multimodal large language model. UI-Venus achieves SOTA performance on both UI grounding and navigation tasks using only several hundred thousand high-quality training samples through reinforcement finetune (RFT) based on Qwen2.5-VL. Specifically, the 7B and 72B variants of UI-Venus obtain 94.1% / 50.8% and 95.3% / 61.9% on the standard grounding benchmarks, i.e., Screenspot-V2 / Pro, surpassing the previous SOTA baselines including open-source GTA1 and closed-source UI-TARS-1.5. To show UI-Venus's summary and planing ability, we also evaluate it on the AndroidWorld, an online UI navigation arena, on which our 7B and 72B variants achieve 49.1% and 65.9% success rate, also beating existing models. To achieve this, we introduce carefully designed reward functions for both UI grounding and navigation tasks and corresponding efficient data cleaning strategies. To further boost navigation performance, we propose Self-Evolving Trajectory History Alignment & Sparse Action Enhancement that refine historical reasoning traces and balances the distribution of sparse but critical actions, leading to more coherent planning and better generalization in complex UI tasks. Our contributions include the publish of SOTA open-source UI agents, comprehensive data cleaning protocols and a novel self-evolving framework for improving navigation performance, which encourage further research and development in the community. Code is available at https://github.com/inclusionAI/UI-Venus.
- Abstract(参考訳): マルチモーダルな大言語モデルに基づいてスクリーンショットのみを入力として取り込むネイティブUIエージェントであるUI-Venusを提示する。
UI-Venusは、Qwen2.5-VLに基づく強化細管(RFT)を通じて、数万の高品質なトレーニングサンプルを使用して、UIグラウンドとナビゲーションタスクの両方でSOTAパフォーマンスを達成する。
具体的には、7Bと72BのUI-Venusは94.1% / 50.8%、95.3% / 61.9%の標準グラウンドベンチマーク、すなわちScreenspot-V2 / Proが、オープンソースのGTA1やクローズドソースのUI-TARS-1.5を含む以前のSOTAベースラインを上回っている。
UI-Venusの要約と計画能力を示すために,オンラインUIナビゲーションアリーナであるAndroidWorldでも評価しています。
そこで我々は,UIグラウンディングとナビゲーションの両タスクと,それに対応する効率的なデータクリーニング戦略を慎重に設計した報酬関数を提案する。
航法性能をさらに向上するために,自己進化的トラジェクトリヒストアライメント・アライメント・アンド・スパース・アクション・エンハンスメント(Self-Evolving Trajectory History Alignment & Sparse Action Enhancement)を提案する。
コントリビューションには、SOTAオープンソースUIエージェントの公開、包括的データクリーニングプロトコル、ナビゲーション性能を改善するための新たな自己進化フレームワークなどが含まれます。
コードはhttps://github.com/inclusionAI/UI-Venusで入手できる。
関連論文リスト
- UI-Venus-1.5 Technical Report [64.4832043785725]
We present UI-Venus-1.5, an unified, end-to-end GUI Agent。
提案したモデルファミリーは、2つの高密度変種(2Bと8B)と1つの混合専門家変種(30B-A3B)からなる。
さらに、UI-Venus-1.5は、さまざまな中国のモバイルアプリで堅牢なナビゲーション機能を示している。
論文 参考訳(メタデータ) (2026-02-09T18:43:40Z) - OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution [32.992104943415995]
OmegaUseは、モバイルプラットフォームとデスクトッププラットフォームの両方で自律的なタスク実行のための汎用GUIエージェントモデルである。
既存のGUIベンチマークでは高い競争力があり、ScreenSpot-V2で96.3%のSOTA(State-of-the-art)スコアを達成している。
OS-Navでは74.24%がChiM-Navで、平均55.9%がUbu-Navで成功している。
論文 参考訳(メタデータ) (2026-01-28T08:45:17Z) - FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection [81.25070759820589]
VLM(Vision-Language Models)はUI(User Interface)のグラウンディングタスクにおいて顕著なパフォーマンスを示している。
VLMは数千の視覚トークンにトークン化され、計算オーバーヘッドが大きくなり、注意が希薄になる。
命令に最も関係のあるパッチを選択する,効率的なUI基盤フレームワークであるFocusUIを提案する。
論文 参考訳(メタデータ) (2026-01-07T13:48:12Z) - MAI-UI Technical Report: Real-World Centric Foundation GUI Agents [33.46555542782679]
MAI-UIは、2B、8B、32B、および235B-A22Bを含む全範囲のGUIエージェントのファミリーである。
ネイティブエージェント-ユーザインタラクションの欠如、UIのみの操作の限界、実用的なデプロイメントアーキテクチャの欠如です。
論文 参考訳(メタデータ) (2025-12-26T14:51:52Z) - UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning [51.54456545661045]
本稿では,インストラクション・アズ・ア・推論(Instruction-as-Reasoning)パラダイムを導入し,インストラクションを動的解析経路として扱う。
これを実現するために,教師付き微調整と強化学習という2段階のトレーニングフレームワークを提案する。
得られたモデルであるUI-Ins-7BとUI-Ins-32Bは、5つの挑戦的なグラウンドベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-10-23T07:18:32Z) - UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - Toward Autonomous UI Exploration: The UIExplorer Benchmark [10.669221849705165]
UIエクスプローラーベンチ(UIExplore-Bench)は、UI探索に特化した最初のベンチマークである。
ベンチマークでは、標準化されたGitLabサンドボックス環境において、構造化モード(DOMツリーのようなレイアウト情報へのアクセスをグラニングする)またはスクリーンモード(スクリーンショットやヒューマンライクなマウス/キーボードのインタラクションのようなGUIのみの観察に基づいて)のエージェントを3つのレベルにわたって評価している。
以上の結果から,UIExplore-AlGoは平均hUFOスコアを最大77.2%,スクリーンモードは最大59.0%,Sparseレベルは特に優れていた。
論文 参考訳(メタデータ) (2025-06-21T18:16:27Z) - UI-R1: Enhancing Efficient Action Prediction of GUI Agents by Reinforcement Learning [31.796328505473305]
UI-R1は、ルールベースのRLがGUIアクション予測タスクのためのマルチモーダル大言語モデル(MLLM)の推論能力をどのように向上するかを探求する最初のフレームワークである。
具体的には、UI-R1が新しいルールベースのアクション報酬を導入し、グループ相対ポリシー最適化(GRPO)のようなポリシーベースのアルゴリズムによるモデル最適化を可能にする。
効率的なトレーニングのために、モバイルデバイス上で5つの一般的なアクションタイプを含む136の課題タスクからなる、小さくて高品質なデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-03-27T15:39:30Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。
実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。
評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-10-28T17:05:10Z) - GUIOdyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices [47.98821056800437]
クロスプラットフォームなモバイルGUIナビゲーションのためのデータセットであるGUIOdysseyを提示する。
GuiOdysseyは8,334エピソードで構成され、平均15.3ステップで6つのモバイルデバイス、212の異なるアプリ、1,357のアプリの組み合わせをカバーしている。
我々は,履歴リサンプラーモジュールを備えた長期横断ナビゲーションのための探索的マルチモーダルエージェントであるOdysseyAgentを開発した。
論文 参考訳(メタデータ) (2024-06-12T17:44:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。