論文の概要: ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents
- arxiv url: http://arxiv.org/abs/2604.11784v1
- Date: Mon, 13 Apr 2026 17:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.733362
- Title: ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents
- Title(参考訳): ClawGUI: GUIエージェントのトレーニング、評価、デプロイのための統一フレームワーク
- Authors: Fei Tang, Zhiqiong Lu, Boxuan Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen,
- Abstract要約: textbfClawGUI-RLは、並列仮想環境と実際の物理デバイスの両方をサポートする最初のオープンソースのGUIエージェントRLインフラストラクチャを提供する。
textbfClawGUI-Evalは6つのベンチマークと11以上のモデルで完全に標準化された評価パイプラインを実行する。
textbfClawGUI-Agentは、12以上のチャットプラットフォームを通じて、Android、HarmonyOS、iOSにトレーニングされたエージェントを提供し、ハイブリッドCLI-GUIコントロールとパーソナライズされたパーソナライズされたメモリを提供する。
- 参考スコア(独自算出の注目度): 54.04035382782041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GUI agents drive applications through their visual interfaces instead of programmatic APIs, interacting with arbitrary software via taps, swipes, and keystrokes, reaching a long tail of applications that CLI-based agents cannot. Yet progress in this area is bottlenecked less by modeling capacity than by the absence of a coherent full-stack infrastructure: online RL training suffers from environment instability and closed pipelines, evaluation protocols drift silently across works, and trained agents rarely reach real users on real devices. We present \textbf{ClawGUI}, an open-source framework addressing these three gaps within a single harness. \textbf{ClawGUI-RL} provides the first open-source GUI agent RL infrastructure with validated support for both parallel virtual environments and real physical devices, integrating GiGPO with a Process Reward Model for dense step-level supervision. \textbf{ClawGUI-Eval} enforces a fully standardized evaluation pipeline across 6 benchmarks and 11+ models, achieving 95.8\% reproduction against official baselines. \textbf{ClawGUI-Agent} brings trained agents to Android, HarmonyOS, and iOS through 12+ chat platforms with hybrid CLI-GUI control and persistent personalized memory. Trained end to end within this pipeline, \textbf{ClawGUI-2B} achieves 17.1\% Success Rate on MobileWorld GUI-Only, outperforming the same-scale MAI-UI-2B baseline by 6.0\%.
- Abstract(参考訳): GUIエージェントは、プログラム的なAPIではなく、視覚的なインターフェースを通じてアプリケーションを駆動し、タップ、スワイプ、キーストロークを通じて任意のソフトウェアと対話し、CLIベースのエージェントでは不可能なアプリケーションの長いテールに達する。
オンラインRLトレーニングは環境不安定性とクローズドパイプラインに悩まされ、評価プロトコルは作業中に静かにドリフトし、トレーニングされたエージェントが実際のデバイス上で実際のユーザに到達することはめったにない。
我々は,これら3つのギャップを1つのハーネス内で解決するオープンソースフレームワークである‘textbf{ClawGUI}を提示する。
\textbf{ClawGUI-RL} は、並列仮想環境と実際の物理デバイスの両方をサポートする最初のオープンソースの GUI エージェント RL インフラストラクチャを提供する。
\textbf{ClawGUI-Eval} は6つのベンチマークと11以上のモデルで完全に標準化された評価パイプラインを実行し、公式のベースラインに対して95.8\%の再現を達成した。
\textbf{ClawGUI-Agent}は、12以上のチャットプラットフォームを通じて、Android、HarmonyOS、iOSにトレーニングされたエージェントを提供し、ハイブリッドCLI-GUIコントロールとパーソナライズされたパーソナライズされたメモリを提供する。
このパイプライン内でエンドツーエンドにトレーニングされた \textbf{ClawGUI-2B} は MobileWorld GUI 上で 17.1\% の成功率を達成した。
関連論文リスト
- GUI-GENESIS: Automated Synthesis of Efficient Environments with Verifiable Rewards for GUI Agent Post-Training [30.675339113121225]
提案するGUI-GENESIS(GUI-GENESIS)は,効率の良いGUIトレーニング環境を,評価可能な報酬で自動生成するフレームワークである。
GUI-GENESISは、実際のアプリケーションのトレーニングと比較して、環境のレイテンシを10倍削減し、エポック毎のコストを28,000ドル以上削減する。
論文 参考訳(メタデータ) (2026-02-15T10:58:01Z) - UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - Mobile-Agent-v3: Fundamental Agents for GUI Automation [59.775510710011325]
本稿では,オープンソースエンド・ツー・エンド・モデル間の最先端性能を実現する基礎的なGUIエージェントモデルを提案する。
汎用GUIエージェントフレームワークであるMobile-Agent-v3を提案し,AndroidWorldでは73.3,OSWorldでは37.7に向上した。
論文 参考訳(メタデータ) (2025-08-21T00:39:12Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - ZeroGUI: Automating Online GUI Learning at Zero Human Cost [75.21128388931945]
我々は、ZeroGUIを提案する。ZeroGUIは、Zeroの人的コストでGUIエージェントのトレーニングを自動化する、スケーラブルでオンライン学習フレームワークである。
具体的には、(i)VLMベースの自動タスク生成を統合して、現在の環境状態から多様なトレーニング目標を生成するとともに、(ii)手作り評価機能なしでタスク成功を評価するためのVLMベースの自動報酬推定と、(iii)GUI環境と継続的に対話し学習するための2段階オンライン強化学習を統合する。
論文 参考訳(メタデータ) (2025-05-29T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。