論文の概要: GUI-ReWalk: Massive Data Generation for GUI Agent via Stochastic Exploration and Intent-Aware Reasoning
- arxiv url: http://arxiv.org/abs/2509.15738v1
- Date: Fri, 19 Sep 2025 08:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.068833
- Title: GUI-ReWalk: Massive Data Generation for GUI Agent via Stochastic Exploration and Intent-Aware Reasoning
- Title(参考訳): GUI-ReWalk:確率探索とインテント認識推論によるGUIエージェントの大量データ生成
- Authors: Musen Lin, Minghao Liu, Taoran Lu, Lichen Yuan, Yiwei Liu, Haonan Xu, Yu Miao, Yuhao Chao, Zhaojian Li,
- Abstract要約: GUI-ReWalkは、現実的で多様なGUIトラジェクトリを合成するための多段階フレームワークである。
GUI-ReWalkは、ランダム性と構造に対するゴール認識推論を組み合わせることで、人間のコンピュータインタラクションの意図認識、適応性をよりよく反映したデータを生成する。
その結果、GUI-ReWalkは、多様な相互作用フロー、より高い軌道エントロピー、よりリアルなユーザインテントのカバレッジを向上できることを示した。
- 参考スコア(独自算出の注目度): 11.909652592163896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical User Interface (GUI) Agents, powered by large language and vision-language models, hold promise for enabling end-to-end automation in digital environments. However, their progress is fundamentally constrained by the scarcity of scalable, high-quality trajectory data. Existing data collection strategies either rely on costly and inconsistent manual annotations or on synthetic generation methods that trade off between diversity and meaningful task coverage. To bridge this gap, we present GUI-ReWalk: a reasoning-enhanced, multi-stage framework for synthesizing realistic and diverse GUI trajectories. GUI-ReWalk begins with a stochastic exploration phase that emulates human trial-and-error behaviors, and progressively transitions into a reasoning-guided phase where inferred goals drive coherent and purposeful interactions. Moreover, it supports multi-stride task generation, enabling the construction of long-horizon workflows across multiple applications. By combining randomness for diversity with goal-aware reasoning for structure, GUI-ReWalk produces data that better reflects the intent-aware, adaptive nature of human-computer interaction. We further train Qwen2.5-VL-7B on the GUI-ReWalk dataset and evaluate it across multiple benchmarks, including Screenspot-Pro, OSWorld-G, UI-Vision, AndroidControl, and GUI-Odyssey. Results demonstrate that GUI-ReWalk enables superior coverage of diverse interaction flows, higher trajectory entropy, and more realistic user intent. These findings establish GUI-ReWalk as a scalable and data-efficient framework for advancing GUI agent research and enabling robust real-world automation.
- Abstract(参考訳): Graphical User Interface (GUI) Agentsは、デジタル環境でエンドツーエンドの自動化を可能にすることを約束している。
しかし、彼らの進歩は、スケーラブルで高品質な軌道データの不足によって、根本的に制約されている。
既存のデータ収集戦略は、コストと一貫性のない手動アノテーションに依存するか、多様性と意味のあるタスクカバレッジをトレードオフする合成メソッドに依存する。
このギャップを埋めるために、我々はGUI-ReWalkを紹介します。
GUI-ReWalkは、人間の試行錯誤行動をエミュレートする確率論的探索フェーズから始まり、推論されたゴールが一貫性と目的の相互作用を促進する推論誘導フェーズへと徐々に移行する。
さらに、マルチストライドタスク生成をサポートし、複数のアプリケーションにまたがる長い水平ワークフローの構築を可能にする。
GUI-ReWalkは、多様性のためのランダム性と構造に対するゴール認識推論を組み合わせることで、人間とコンピュータの相互作用の意図認識、適応性をよりよく反映したデータを生成する。
さらに、GUI-ReWalkデータセット上でQwen2.5-VL-7Bをトレーニングし、Screenspot-Pro、OSWorld-G、UI-Vision、AndroidControl、GUI-Odysseyなど、複数のベンチマークで評価します。
その結果、GUI-ReWalkは、多様な相互作用フロー、より高い軌道エントロピー、よりリアルなユーザインテントのカバレッジを向上できることを示した。
これらの知見は、GUIエージェントの研究を進め、堅牢な実世界の自動化を実現するためのスケーラブルでデータ効率のよいフレームワークとしてGUI-ReWalkを確立した。
関連論文リスト
- OmniActor: A Generalist GUI and Embodied Agent for 2D&3D Worlds [21.902626737678286]
マルチモーダルな言語モデルは、タスクを積極的に実行できるマルチモーダルエージェントへと進化している。
エージェント研究の多くはGUIやエンボディ化されたシナリオに焦点を合わせており、それらはそれぞれ2次元仮想世界や3次元現実世界と相互作用するエージェントに対応している。
構造とデータの観点から設計した高性能汎用エージェントOmniActorを提案する。
論文 参考訳(メタデータ) (2025-09-02T13:47:54Z) - MagicGUI: A Foundational Mobile GUI Agent with Scalable Data Pipeline and Reinforcement Fine-tuning [83.81404871748438]
MagicGUIは、現実のモバイルGUI環境における認識、接地、推論における重要な課題に対処するために設計された、基本的なモバイルGUIエージェントである。
フレームワークには、包括的で正確なデータセット、知覚と接地能力の強化、包括的で統一されたアクション空間、計画指向の推論メカニズムを含む6つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (2025-07-19T12:33:43Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent [66.34801160469067]
MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。
本稿では,2つの基本的なメカニズムを組み込んだトレーニング不要なGUIエージェントであるGUI-Explorerを提案する。
SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-05-22T16:01:06Z) - SpiritSight Agent: Advanced GUI Agent with One Look [7.470506991479107]
理想的なグラフィカルユーザインタフェース(GUI)エージェントは、高い精度、低レイテンシ、互換性を実現することが期待されている。
最近のビジョンベースアプローチは、高度なビジョン言語モデル(VLM)を活用することで、将来性を示している。
本稿では,GUIナビゲーションタスクに優れた視覚ベースのエンドツーエンドGUIエージェントであるtextbfSpiritSight$を提案する。
論文 参考訳(メタデータ) (2025-03-05T05:30:22Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。