論文の概要: OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution
- arxiv url: http://arxiv.org/abs/2601.20380v1
- Date: Wed, 28 Jan 2026 08:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.852905
- Title: OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution
- Title(参考訳): OmegaUse: 自律タスク実行のための汎用GUIエージェントの構築
- Authors: Le Zhang, Yixiong Xiao, Xinjiang Lu, Jingjia Cao, Yusai Zhao, Jingbo Zhou, Lang An, Zikan Feng, Wanxiang Sha, Yu Shi, Congxi Xiao, Jian Xiong, Yankai Zhang, Hua Wu, Haifeng Wang,
- Abstract要約: OmegaUseは、モバイルプラットフォームとデスクトッププラットフォームの両方で自律的なタスク実行のための汎用GUIエージェントモデルである。
既存のGUIベンチマークでは高い競争力があり、ScreenSpot-V2で96.3%のSOTA(State-of-the-art)スコアを達成している。
OS-Navでは74.24%がChiM-Navで、平均55.9%がUbu-Navで成功している。
- 参考スコア(独自算出の注目度): 32.992104943415995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical User Interface (GUI) agents show great potential for enabling foundation models to complete real-world tasks, revolutionizing human-computer interaction and improving human productivity. In this report, we present OmegaUse, a general-purpose GUI agent model for autonomous task execution on both mobile and desktop platforms, supporting computer-use and phone-use scenarios. Building an effective GUI agent model relies on two factors: (1) high-quality data and (2) effective training methods. To address these, we introduce a carefully engineered data-construction pipeline and a decoupled training paradigm. For data construction, we leverage rigorously curated open-source datasets and introduce a novel automated synthesis framework that integrates bottom-up autonomous exploration with top-down taxonomy-guided generation to create high-fidelity synthetic data. For training, to better leverage these data, we adopt a two-stage strategy: Supervised Fine-Tuning (SFT) to establish fundamental interaction syntax, followed by Group Relative Policy Optimization (GRPO) to improve spatial grounding and sequential planning. To balance computational efficiency with agentic reasoning capacity, OmegaUse is built on a Mixture-of-Experts (MoE) backbone. To evaluate cross-terminal capabilities in an offline setting, we introduce OS-Nav, a benchmark suite spanning multiple operating systems: ChiM-Nav, targeting Chinese Android mobile environments, and Ubu-Nav, focusing on routine desktop interactions on Ubuntu. Extensive experiments show that OmegaUse is highly competitive across established GUI benchmarks, achieving a state-of-the-art (SOTA) score of 96.3% on ScreenSpot-V2 and a leading 79.1% step success rate on AndroidControl. OmegaUse also performs strongly on OS-Nav, reaching 74.24% step success on ChiM-Nav and 55.9% average success on Ubu-Nav.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)エージェントは、ファンデーションモデルが現実世界のタスクを完了し、人間とコンピュータのインタラクションを革新し、人間の生産性を向上させる大きな可能性を示している。
本稿では,モバイルプラットフォームとデスクトッププラットフォームの両方で自律的なタスク実行を行う汎用GUIエージェントモデルであるOmegaUseについて述べる。
有効なGUIエージェントモデルの構築には,(1)高品質なデータと(2)効果的なトレーニング方法の2つの要因がかかっている。
これらの問題に対処するために、慎重に設計されたデータ構築パイプラインと、分離されたトレーニングパラダイムを導入します。
データ構築には、厳格にキュレートされたオープンソースのデータセットを活用し、ボトムアップの自律的な探索とトップダウンの分類誘導世代を統合して、高忠実な合成データを作成する新しい自動合成フレームワークを導入します。
基礎的な相互作用の構文を確立するために、教師付きファインチューニング(SFT)と、空間接地とシーケンシャルプランニングを改善するためのグループ相対ポリシー最適化(GRPO)という2段階の戦略を採用する。
計算効率とエージェント推論能力のバランスをとるため、OmegaUseはMixture-of-Experts (MoE)のバックボーン上に構築されている。
オフライン環境でのクロスターミナル機能の評価には、複数のオペレーティングシステムにまたがるベンチマークスイートであるOS-Nav、中国のAndroidモバイル環境をターゲットにしたChiM-Nav、Ubuntu上の通常のデスクトップインタラクションに焦点を当てたUbu-Navを紹介する。
大規模な実験により、OmegaUseは確立されたGUIベンチマーク間で高い競争力を示し、ScreenSpot-V2で96.3%、AndroidControlで79.1%のステップ成功率を記録した。
OmegaUseはOS-Navに強く依存し、ChiM-Navで74.24%、Ubu-Navで55.9%の成功を達成した。
関連論文リスト
- UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.390060529534644]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。
我々は,OS-Genesisを用いたGUIエージェントのトレーニングにより,高度に挑戦するオンラインベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-12-27T16:21:58Z) - AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。
実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。
評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-10-28T17:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。