論文の概要: ViMo: A Generative Visual GUI World Model for App Agent
- arxiv url: http://arxiv.org/abs/2504.13936v1
- Date: Tue, 15 Apr 2025 14:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 08:35:37.26568
- Title: ViMo: A Generative Visual GUI World Model for App Agent
- Title(参考訳): ViMo: App Agent用の生成ビジュアルGUIワールドモデル
- Authors: Dezhao Luo, Bohan Tang, Kang Li, Georgios Papoudakis, Jifei Song, Shaogang Gong, Jianye Hao, Jun Wang, Kun Shao,
- Abstract要約: ViMoは、将来のApp観測をイメージとして生成するために設計されたビジュアルワールドモデルである。
本稿では,シンボルプレースホルダーによるテキストコンテンツをオーバーレイする新しいデータ表現であるシンボリックテキスト表現を提案する。
この設計では、将来のGUIのグラフィックスを予測するSTR Predictorと、対応するテキストを生成するGUI-text Predictorが使用されている。
- 参考スコア(独自算出の注目度): 60.27668506731929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: App agents, which autonomously operate mobile Apps through Graphical User Interfaces (GUIs), have gained significant interest in real-world applications. Yet, they often struggle with long-horizon planning, failing to find the optimal actions for complex tasks with longer steps. To address this, world models are used to predict the next GUI observation based on user actions, enabling more effective agent planning. However, existing world models primarily focus on generating only textual descriptions, lacking essential visual details. To fill this gap, we propose ViMo, the first visual world model designed to generate future App observations as images. For the challenge of generating text in image patches, where even minor pixel errors can distort readability, we decompose GUI generation into graphic and text content generation. We propose a novel data representation, the Symbolic Text Representation~(STR) to overlay text content with symbolic placeholders while preserving graphics. With this design, ViMo employs a STR Predictor to predict future GUIs' graphics and a GUI-text Predictor for generating the corresponding text. Moreover, we deploy ViMo to enhance agent-focused tasks by predicting the outcome of different action options. Experiments show ViMo's ability to generate visually plausible and functionally effective GUIs that enable App agents to make more informed decisions.
- Abstract(参考訳): Graphical User Interfaces (GUI)を通じてモバイルアプリを自律的に運用するアプリエージェントは、現実世界のアプリケーションに多大な関心を集めている。
しかし、彼らはしばしば長期計画に苦労し、長いステップで複雑なタスクに最適なアクションを見つけられなかった。
これを解決するために、ワールドモデルはユーザアクションに基づいた次のGUI観測を予測するために使用され、より効果的なエージェント計画を可能にします。
しかし、既存の世界モデルは、主にテキスト記述のみを生成することに焦点を合わせており、基本的な視覚的詳細は欠如している。
このギャップを埋めるために、将来のApp観測を画像として生成するために設計された最初のビジュアルワールドモデルViMoを提案する。
画像パッチにおけるテキスト生成において、小さな画素エラーでも可読性を歪ませることのできる問題に対して、GUI生成をグラフィックおよびテキストコンテンツ生成に分解する。
図形保存中にシンボルプレースホルダーとテキストコンテンツをオーバーレイする新しいデータ表現であるSymbolic Text Representation~(STR)を提案する。
この設計では、将来のGUIのグラフィックスを予測するSTR Predictorと、対応するテキストを生成するGUI-text Predictorが使用されている。
さらに、異なるアクションオプションの結果を予測することにより、エージェント中心のタスクを強化するためにViMoをデプロイする。
実験では、ViMoが視覚的に可視かつ機能的に有効なGUIを生成する能力を示し、Appエージェントがより情報的な意思決定を行えるようにしている。
関連論文リスト
- DeskVision: Large Scale Desktop Region Captioning for Advanced GUI Agents [17.20455408001344]
本稿では,GUIデータの自動生成パイプラインであるAutoCaptionerを提案する。
私たちは、日々の使用を反映し、さまざまなシステムやUI要素をカバーする、新しい大規模なデスクトップGUIデータセットであるDeskVisionを作成しました。
我々は新しいGUI理解モデル GUIExplorerを訓練し、ビジュアル要素の理解とグラウンド化において最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-14T08:16:02Z) - GUIDE: LLM-Driven GUI Generation Decomposition for Automated Prototyping [55.762798168494726]
印象的なコード生成機能を備えた大規模言語モデル(LLM)は、GUIプロトタイピングを自動化するための有望なアプローチを提供する。
しかし、現在のLLMベースのプロトタイピングソリューションと従来のユーザベースのGUIプロトタイピングアプローチの間にはギャップがある。
プロトタイピングフレームワークであるFigmaにシームレスに統合された新しいLLM駆動GUI生成分解手法であるGUIDEを提案する。
論文 参考訳(メタデータ) (2025-02-28T14:03:53Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents [20.08996257335876]
環境を視覚的に完全に認識し,GUI上でピクセルレベルの操作を直接実行する,GUIエージェントのためのヒューマンライクなエボディメントを提唱する。
これまでに10MのGUI要素と参照式を1.3Mのスクリーンショット上に収めた、GUIの視覚的接地のための最大のデータセットを収集しました。
ウェブベースの合成データとLLaVAアーキテクチャの若干の適応を含む簡単なレシピは、このような視覚的接地モデルのトレーニングに驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2024-10-07T17:47:50Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - GUing: A Mobile GUI Search Engine using a Vision-Language Model [6.024602799136753]
本稿ではGUIClipと呼ばれる視覚言語モデルに基づくGUI検索エンジンGUingを提案する。
われわれは最初にGoogle Playアプリの紹介画像から収集し、最も代表的なスクリーンショットを表示する。
そこで我々は,これらの画像からキャプションを分類し,収穫し,抽出する自動パイプラインを開発した。
私たちはこのデータセットを使って新しい視覚言語モデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-04-30T18:42:18Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。