論文の概要: SwipeGen: Bridging the Execution Gap in GUI Agents via Human-like Swipe Synthesis
- arxiv url: http://arxiv.org/abs/2601.18305v1
- Date: Mon, 26 Jan 2026 09:35:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.758555
- Title: SwipeGen: Bridging the Execution Gap in GUI Agents via Human-like Swipe Synthesis
- Title(参考訳): SwipeGen:人間ライクなSwipe合成によるGUIエージェントの実行ギャップのブリッジ
- Authors: Xuan Wang, Siyuan Su, Quantong Fu, Yongxiang Hu, Yangfan Zhou,
- Abstract要約: 人間のスワイプ動作を定量的な次元に分解し,人間のスワイプ操作を合成する自動パイプラインSwipeGenを提案する。
このパイプラインに基づいて、GUIエージェントのスワイプ実行能力を評価するための最初のベンチマークを構築し、リリースする。
対話実行機能を強化したGUIエージェントであるGUISwiperを提案する。
- 参考スコア(独自算出の注目度): 11.291868789244496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread adoption of Graphical User Interface (GUI) agents for automating GUI interaction tasks, substantial research focused on improving GUI perception to ground task instructions into concrete action steps. However, the step execution capability of these agents has gradually emerged as a new bottleneck for task completion. In particular, existing GUI agents often adopt overly simplified strategies for handling swipe interactions, preventing them from accurately replicating human-like behavior. To address this limitation, we decompose human swipe gestures into multiple quantifiable dimensions and propose an automated pipeline SwipeGen to synthesize human-like swipe interactions through GUI exploration. Based on this pipeline, we construct and release the first benchmark for evaluating the swipe execution capability of GUI agents. Furthermore, leveraging the synthesized data, we propose GUISwiper, a GUI agent with enhanced interaction execution capabilities. Experimental results demonstrate that GUISwiper achieves a swipe execution accuracy of 69.07%, representing a 214% improvement over existing VLM baselines.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)エージェントがGUIインタラクションタスクの自動化に広く採用され、GUIの認識を改善し、具体的アクションステップへと発展させることに重点が置かれた。
しかし、これらのエージェントのステップ実行能力は、タスク完了の新たなボトルネックとして徐々に現れてきた。
特に、既存のGUIエージェントは、スワイプ操作を処理するための過度に単純化された戦略を採用しており、人間のような振る舞いを正確に複製することができない。
この制限に対処するために、人間のスワイプジェスチャーを複数の定量化次元に分解し、GUI探索を通して人間のようなスワイプインタラクションを合成する自動パイプラインSwipeGenを提案する。
このパイプラインに基づいて、GUIエージェントのスワイプ実行能力を評価するための最初のベンチマークを構築し、リリースする。
さらに、合成データを活用することで、対話実行機能を強化したGUIエージェントであるGUISwiperを提案する。
実験の結果、GUISwiperは69.07%のスワイプ実行精度を実現しており、既存のVLMベースラインよりも214%改善されている。
関連論文リスト
- ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands [59.222064425122795]
そこで我々は,GUI dexterous Handとして最初のフローベース生成モデルである ShowUI-$ を開発した。
ShowUI-$$は、たった450万のパラメータで26.98を達成する。
論文 参考訳(メタデータ) (2025-12-31T16:51:14Z) - UIPro: Unleashing Superior Interaction Capability For GUI Agents [33.77980648230746]
人間のようなグラフィカルユーザインタフェース(GUI)を知覚し、操作する自律エージェントの構築は、人工知能の分野における長年のビジョンである。
視覚言語モデル(VLM)のマルチモーダル理解能力に基づくGUIエージェントの開発が試みられている。
本稿では,多プラットフォーム・マルチタスクGUIインタラクションデータを用いた新しい汎用GUIエージェントであるtextUIProを提案する。
論文 参考訳(メタデータ) (2025-09-22T03:04:53Z) - GUI-ReWalk: Massive Data Generation for GUI Agent via Stochastic Exploration and Intent-Aware Reasoning [11.909652592163896]
GUI-ReWalkは、現実的で多様なGUIトラジェクトリを合成するための多段階フレームワークである。
GUI-ReWalkは、ランダム性と構造に対するゴール認識推論を組み合わせることで、人間のコンピュータインタラクションの意図認識、適応性をよりよく反映したデータを生成する。
その結果、GUI-ReWalkは、多様な相互作用フロー、より高い軌道エントロピー、よりリアルなユーザインテントのカバレッジを向上できることを示した。
論文 参考訳(メタデータ) (2025-09-19T08:09:18Z) - GTA1: GUI Test-time Scaling Agent [97.58177633084915]
グラフィカルユーザインタフェース(GUI)は、ユーザ命令をアクションプロポーザルに順次分解することで、プラットフォーム(例えばLinux)間で自律的にタスクを完了させる。
本稿では,前述の textbfGUI textbfTest-time Scaling textbfAgent,すなわち GTA1 の課題について検討する。
論文 参考訳(メタデータ) (2025-07-08T08:52:18Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。
また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。
UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-15T22:17:30Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。