論文の概要: ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands
- arxiv url: http://arxiv.org/abs/2512.24965v1
- Date: Wed, 31 Dec 2025 16:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.713744
- Title: ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands
- Title(参考訳): ショーUI-$π$:GUI Dexterous Handsとしてのフローベース生成モデル
- Authors: Siyuan Hu, Kevin Qinghong Lin, Mike Zheng Shou,
- Abstract要約: そこで我々は,GUI dexterous Handとして最初のフローベース生成モデルである ShowUI-$ を開発した。
ShowUI-$$は、たった450万のパラメータで26.98を達成する。
- 参考スコア(独自算出の注目度): 59.222064425122795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building intelligent agents capable of dexterous manipulation is essential for achieving human-like automation in both robotics and digital environments. However, existing GUI agents rely on discrete click predictions (x,y), which prohibits free-form, closed-loop trajectories (e.g. dragging a progress bar) that require continuous, on-the-fly perception and adjustment. In this work, we develop ShowUI-$π$, the first flow-based generative model as GUI dexterous hand, featuring the following designs: (i) Unified Discrete-Continuous Actions, integrating discrete clicks and continuous drags within a shared model, enabling flexible adaptation across diverse interaction modes; (ii) Flow-based Action Generation for drag modeling, which predicts incremental cursor adjustments from continuous visual observations via a lightweight action expert, ensuring smooth and stable trajectories; (iii) Drag Training data and Benchmark, where we manually collect and synthesize 20K drag trajectories across five domains (e.g. PowerPoint, Adobe Premiere Pro), and introduce ScreenDrag, a benchmark with comprehensive online and offline evaluation protocols for assessing GUI agents' drag capabilities. Our experiments show that proprietary GUI agents still struggle on ScreenDrag (e.g. Operator scores 13.27, and the best Gemini-2.5-CUA reaches 22.18). In contrast, ShowUI-$π$ achieves 26.98 with only 450M parameters, underscoring both the difficulty of the task and the effectiveness of our approach. We hope this work advances GUI agents toward human-like dexterous control in digital world. The code is available at https://github.com/showlab/showui-pi.
- Abstract(参考訳): ロボット工学とデジタル環境の両方において、人間のような自動化を実現するためには、巧妙な操作が可能なインテリジェントエージェントの構築が不可欠である。
しかし、既存のGUIエージェントは離散的なクリック予測(x,y)に依存しており、これは、連続的な、オンザフライの認識と調整を必要とする、フリーフォームでクローズドループの軌跡(プログレスバーをドラッグするなど)を禁止している。
本稿では,GUIデクスタラスハンドとして最初のフローベース生成モデルであるShowUI-$π$を開発する。
一 個別のクリックと連続的なドラッグを共有モデルに統合し、多様な相互作用モードにまたがる柔軟な適応を可能にする統一離散連続行動
二 ドラッグモデリングのためのフローベースアクション生成で、軽量なアクションエキスパートによる連続的な視覚的観察からカーソル調整を予測し、滑らかで安定した軌道を確実にする。
3) ドラッグトレーニングデータとベンチマーク。ここでは、5つのドメイン(PowerPoint、Adobe Premiere Proなど)にわたる20Kのドラッグトラジェクトリを手動で収集し、合成し、GUIエージェントのドラッグ機能を評価するための総合的なオンラインおよびオフライン評価プロトコルを備えたベンチマークであるScreenDragを紹介します。
実験の結果、プロプライエタリなGUIエージェントがScreenDrag(例えばOperatorは13.27点、Gemini-2.5-CUAは22.18点)に苦戦していることがわかった。
対照的に、ShowUI-$π$は、タスクの難易度とアプローチの有効性の両方を根拠に、たった450万のパラメータで26.98を達成する。
デジタル世界では、GUIエージェントを人間のような器用なコントロールに進化させることを願っている。
コードはhttps://github.com/showlab/showui-pi.comで入手できる。
関連論文リスト
- GUI-ReWalk: Massive Data Generation for GUI Agent via Stochastic Exploration and Intent-Aware Reasoning [11.909652592163896]
GUI-ReWalkは、現実的で多様なGUIトラジェクトリを合成するための多段階フレームワークである。
GUI-ReWalkは、ランダム性と構造に対するゴール認識推論を組み合わせることで、人間のコンピュータインタラクションの意図認識、適応性をよりよく反映したデータを生成する。
その結果、GUI-ReWalkは、多様な相互作用フロー、より高い軌道エントロピー、よりリアルなユーザインテントのカバレッジを向上できることを示した。
論文 参考訳(メタデータ) (2025-09-19T08:09:18Z) - GUI-G$^2$: Gaussian Reward Modeling for GUI Grounding [51.497245303008015]
グラフィカルユーザインタフェース (GUI) は、自然言語の命令を、自律的なインタラクションのための正確なインターフェース位置にマッピングする。
ターゲット要素を中心としたガウス分布を自然に形成する人間のクリック行動に動機付けられ,GUIガウスグラウンドング・リワード(GUIガウスグラウンドディング・リワード)を導入する。
GUI-G$2$のUI-TARS-72BはScreenSpot-Proで24.7%向上した。
論文 参考訳(メタデータ) (2025-07-21T17:53:42Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents [37.871793585090586]
GUIエージェントにおける2つの重要な課題に対処する自己改善フレームワークであるUI-Genieを紹介する。
軌道結果の検証は困難であり、高品質なトレーニングデータはスケーラブルではない。
UI-Genieは複数のGUIエージェントベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-27T17:58:06Z) - GEM: Gaussian Embedding Modeling for Out-of-Distribution Detection in GUI Agents [13.415165482033395]
環境制約に違反したり、GUIエージェントの現在の能力を超えたりするアウト・オブ・ディストリビューション(OOD)命令は、タスクの故障やセキュリティ上の脅威を引き起こす可能性がある。
従来のOOD検出手法は、複雑な埋め込み空間とGUI環境の進化により、この領域でサブ最適化される。
本稿では,その機能境界を反映したGUIエージェントから抽出した入力埋め込み距離にガウス混合モデルを適用する新しい手法であるGEMを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:29:05Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。