論文の概要: UISim: An Interactive Image-Based UI Simulator for Dynamic Mobile Environments
- arxiv url: http://arxiv.org/abs/2509.21733v1
- Date: Fri, 26 Sep 2025 01:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.098033
- Title: UISim: An Interactive Image-Based UI Simulator for Dynamic Mobile Environments
- Title(参考訳): UISim:動的なモバイル環境のためのインタラクティブなイメージベースUIシミュレータ
- Authors: Jiannan Xiang, Yun Zhu, Lei Shu, Maria Wang, Lijun Yu, Gabriel Barcik, James Lyon, Srinivas Sunkara, Jindong Chen,
- Abstract要約: UISimは、スクリーンイメージから携帯電話環境を純粋に探索するための動的でインタラクティブなプラットフォームを提供する、画像ベースの新しいUIシミュレータである。
初期電話画面イメージとユーザアクションが与えられたら、まず次のUI状態の抽象的なレイアウトを予測し、次に視覚的に一貫した新しいイメージを合成する。
実験の結果、UISimは、現実的で一貫性のあるその後のUI状態を生成する際に、エンド・ツー・エンドのUI生成ベースラインを上回ります。
- 参考スコア(独自算出の注目度): 19.040684245773775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing and testing user interfaces (UIs) and training AI agents to interact with them are challenging due to the dynamic and diverse nature of real-world mobile environments. Existing methods often rely on cumbersome physical devices or limited static analysis of screenshots, which hinders scalable testing and the development of intelligent UI agents. We introduce UISim, a novel image-based UI simulator that offers a dynamic and interactive platform for exploring mobile phone environments purely from screen images. Our system employs a two-stage method: given an initial phone screen image and a user action, it first predicts the abstract layout of the next UI state, then synthesizes a new, visually consistent image based on this predicted layout. This approach enables the realistic simulation of UI transitions. UISim provides immediate practical benefits for UI testing, rapid prototyping, and synthetic data generation. Furthermore, its interactive capabilities pave the way for advanced applications, such as UI navigation task planning for AI agents. Our experimental results show that UISim outperforms end-to-end UI generation baselines in generating realistic and coherent subsequent UI states, highlighting its fidelity and potential to streamline UI development and enhance AI agent training.
- Abstract(参考訳): ユーザインターフェース(UI)の開発とテスト、それと対話するためのAIエージェントのトレーニングは、現実のモバイル環境の動的で多様な性質のため、難しい。
既存のメソッドは、しばしば面倒な物理デバイスやスクリーンショットの静的解析に頼っているため、スケーラブルなテストやインテリジェントなUIエージェントの開発を妨げている。
UISimは、スクリーンイメージから携帯電話環境を純粋に探索するための動的でインタラクティブなプラットフォームを提供する、画像ベースの新しいUIシミュレータである。
初期電話画面イメージとユーザアクションが与えられたら、まず次のUI状態の抽象的なレイアウトを予測し、次にこの予測されたレイアウトに基づいて視覚的に一貫した新しいイメージを合成する。
このアプローチはUI遷移の現実的なシミュレーションを可能にする。
UISimは、UIテスト、ラピッドプロトタイピング、合成データ生成に即時に実用的な利点を提供する。
さらに、インタラクティブな機能は、AIエージェントのUIナビゲーションタスク計画のような高度なアプリケーションへの道を開く。
実験の結果、UISimは、現実的で一貫性のあるその後のUI状態を生成する際に、エンドツーエンドのUI生成ベースラインよりも優れており、UI開発を効率化し、AIエージェントのトレーニングを強化する可能性を強調している。
関連論文リスト
- UItron: Foundational GUI Agent with Advanced Perception and Planning [13.67797194012135]
本稿では,GUIの高度な認識,接地,計画機能を備えた自動GUIエージェントのオープンソースモデルを提案する。
UItronはGUIエージェント開発を進める上で,基本的なコンポーネントとして,システムデータエンジニアリングとインタラクティブインフラストラクチャの必要性を強調している。
私たちは手作業で100万以上の操作トラジェクトリを、最も人気のあるアプリのトップ100に集め、オフラインおよびオンラインエージェント評価環境を構築しました。
論文 参考訳(メタデータ) (2025-08-29T16:40:57Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - Spotlight: Mobile UI Understanding using Vision-Language Models with a
Focus [9.401663915424008]
本稿では,UIのスクリーンショットと画面上の関心領域のみを入力とする視覚言語モデルを提案する。
実験の結果,本モデルではいくつかのUIタスクにおいてSoTA結果が得られ,従来手法よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2022-09-29T16:45:43Z) - DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。
DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。
実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文 参考訳(メタデータ) (2021-04-30T15:30:05Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。