論文の概要: ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands
- arxiv url: http://arxiv.org/abs/2512.24965v1
- Date: Wed, 31 Dec 2025 16:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.713744
- Title: ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands
- Title(参考訳): ショーUI-$π$:GUI Dexterous Handsとしてのフローベース生成モデル
- Authors: Siyuan Hu, Kevin Qinghong Lin, Mike Zheng Shou,
- Abstract要約: そこで我々は,GUI dexterous Handとして最初のフローベース生成モデルである ShowUI-$ を開発した。
ShowUI-$$は、たった450万のパラメータで26.98を達成する。
- 参考スコア(独自算出の注目度): 59.222064425122795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building intelligent agents capable of dexterous manipulation is essential for achieving human-like automation in both robotics and digital environments. However, existing GUI agents rely on discrete click predictions (x,y), which prohibits free-form, closed-loop trajectories (e.g. dragging a progress bar) that require continuous, on-the-fly perception and adjustment. In this work, we develop ShowUI-$π$, the first flow-based generative model as GUI dexterous hand, featuring the following designs: (i) Unified Discrete-Continuous Actions, integrating discrete clicks and continuous drags within a shared model, enabling flexible adaptation across diverse interaction modes; (ii) Flow-based Action Generation for drag modeling, which predicts incremental cursor adjustments from continuous visual observations via a lightweight action expert, ensuring smooth and stable trajectories; (iii) Drag Training data and Benchmark, where we manually collect and synthesize 20K drag trajectories across five domains (e.g. PowerPoint, Adobe Premiere Pro), and introduce ScreenDrag, a benchmark with comprehensive online and offline evaluation protocols for assessing GUI agents' drag capabilities. Our experiments show that proprietary GUI agents still struggle on ScreenDrag (e.g. Operator scores 13.27, and the best Gemini-2.5-CUA reaches 22.18). In contrast, ShowUI-$π$ achieves 26.98 with only 450M parameters, underscoring both the difficulty of the task and the effectiveness of our approach. We hope this work advances GUI agents toward human-like dexterous control in digital world. The code is available at https://github.com/showlab/showui-pi.
- Abstract(参考訳): ロボット工学とデジタル環境の両方において、人間のような自動化を実現するためには、巧妙な操作が可能なインテリジェントエージェントの構築が不可欠である。
しかし、既存のGUIエージェントは離散的なクリック予測(x,y)に依存しており、これは、連続的な、オンザフライの認識と調整を必要とする、フリーフォームでクローズドループの軌跡(プログレスバーをドラッグするなど)を禁止している。
本稿では,GUIデクスタラスハンドとして最初のフローベース生成モデルであるShowUI-$π$を開発する。
一 個別のクリックと連続的なドラッグを共有モデルに統合し、多様な相互作用モードにまたがる柔軟な適応を可能にする統一離散連続行動
二 ドラッグモデリングのためのフローベースアクション生成で、軽量なアクションエキスパートによる連続的な視覚的観察からカーソル調整を予測し、滑らかで安定した軌道を確実にする。
3) ドラッグトレーニングデータとベンチマーク。ここでは、5つのドメイン(PowerPoint、Adobe Premiere Proなど)にわたる20Kのドラッグトラジェクトリを手動で収集し、合成し、GUIエージェントのドラッグ機能を評価するための総合的なオンラインおよびオフライン評価プロトコルを備えたベンチマークであるScreenDragを紹介します。
実験の結果、プロプライエタリなGUIエージェントがScreenDrag(例えばOperatorは13.27点、Gemini-2.5-CUAは22.18点)に苦戦していることがわかった。
対照的に、ShowUI-$π$は、タスクの難易度とアプローチの有効性の両方を根拠に、たった450万のパラメータで26.98を達成する。
デジタル世界では、GUIエージェントを人間のような器用なコントロールに進化させることを願っている。
コードはhttps://github.com/showlab/showui-pi.comで入手できる。
関連論文リスト
- SwipeGen: Bridging the Execution Gap in GUI Agents via Human-like Swipe Synthesis [11.291868789244496]
人間のスワイプ動作を定量的な次元に分解し,人間のスワイプ操作を合成する自動パイプラインSwipeGenを提案する。
このパイプラインに基づいて、GUIエージェントのスワイプ実行能力を評価するための最初のベンチマークを構築し、リリースする。
対話実行機能を強化したGUIエージェントであるGUISwiperを提案する。
論文 参考訳(メタデータ) (2026-01-26T09:35:10Z) - Beyond Clicking:A Step Towards Generalist GUI Grounding via Text Dragging [21.57463393334841]
テキストコンテンツの選択と操作のためにマウスをドラッグすることは、実用的なGUIシナリオにおいて一般的で重要な使用法である。
スケーラブルなパイプラインを通じて合成された161Kテキストドラッグング例のデータセットであるGUI-Dragを紹介する。
系統的かつ堅牢な評価をサポートするために,3段階のインターフェースコンテキストにまたがる5,333のサンプルを持つベンチマークであるScreenDragを構築した。
論文 参考訳(メタデータ) (2025-11-07T19:40:09Z) - GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents [59.107657859025586]
GUI-360$circ$は、コンピュータ利用エージェント(CUA)を進化させるために設計された大規模で包括的なデータセットとベンチマークスイートである。
リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションにおける数千のトラジェクトリにわたる1.2万以上の実行されたアクションステップが含まれている。
このデータセットは、3つの標準タスク、GUIグラウンド、スクリーン解析、アクション予測、ハイブリッドGUI+APIアクションスペースをサポートする。
論文 参考訳(メタデータ) (2025-11-06T12:19:02Z) - GUI-ReWalk: Massive Data Generation for GUI Agent via Stochastic Exploration and Intent-Aware Reasoning [11.909652592163896]
GUI-ReWalkは、現実的で多様なGUIトラジェクトリを合成するための多段階フレームワークである。
GUI-ReWalkは、ランダム性と構造に対するゴール認識推論を組み合わせることで、人間のコンピュータインタラクションの意図認識、適応性をよりよく反映したデータを生成する。
その結果、GUI-ReWalkは、多様な相互作用フロー、より高い軌道エントロピー、よりリアルなユーザインテントのカバレッジを向上できることを示した。
論文 参考訳(メタデータ) (2025-09-19T08:09:18Z) - GUI-G$^2$: Gaussian Reward Modeling for GUI Grounding [51.497245303008015]
グラフィカルユーザインタフェース (GUI) は、自然言語の命令を、自律的なインタラクションのための正確なインターフェース位置にマッピングする。
ターゲット要素を中心としたガウス分布を自然に形成する人間のクリック行動に動機付けられ,GUIガウスグラウンドング・リワード(GUIガウスグラウンドディング・リワード)を導入する。
GUI-G$2$のUI-TARS-72BはScreenSpot-Proで24.7%向上した。
論文 参考訳(メタデータ) (2025-07-21T17:53:42Z) - MagicGUI: A Foundational Mobile GUI Agent with Scalable Data Pipeline and Reinforcement Fine-tuning [83.81404871748438]
MagicGUIは、現実のモバイルGUI環境における認識、接地、推論における重要な課題に対処するために設計された、基本的なモバイルGUIエージェントである。
フレームワークには、包括的で正確なデータセット、知覚と接地能力の強化、包括的で統一されたアクション空間、計画指向の推論メカニズムを含む6つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (2025-07-19T12:33:43Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents [37.871793585090586]
GUIエージェントにおける2つの重要な課題に対処する自己改善フレームワークであるUI-Genieを紹介する。
軌道結果の検証は困難であり、高品質なトレーニングデータはスケーラブルではない。
UI-Genieは複数のGUIエージェントベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-27T17:58:06Z) - GEM: Gaussian Embedding Modeling for Out-of-Distribution Detection in GUI Agents [13.415165482033395]
環境制約に違反したり、GUIエージェントの現在の能力を超えたりするアウト・オブ・ディストリビューション(OOD)命令は、タスクの故障やセキュリティ上の脅威を引き起こす可能性がある。
従来のOOD検出手法は、複雑な埋め込み空間とGUI環境の進化により、この領域でサブ最適化される。
本稿では,その機能境界を反映したGUIエージェントから抽出した入力埋め込み距離にガウス混合モデルを適用する新しい手法であるGEMを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:29:05Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。