論文の概要: GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration
- arxiv url: http://arxiv.org/abs/2501.13896v1
- Date: Thu, 23 Jan 2025 18:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:56.500093
- Title: GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration
- Title(参考訳): GUI-Bee: 自律的な探索による新しい環境へのGUIアクション接地
- Authors: Yue Fan, Handong Zhao, Ruiyi Zhang, Yu Shen, Xin Eric Wang, Gang Wu,
- Abstract要約: MLLMをベースとした自律エージェントGUI-Beeを提案する。
NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
- 参考スコア(独自算出の注目度): 56.58744345634623
- License:
- Abstract: Graphical User Interface (GUI) action grounding is a critical step in GUI automation that maps language instructions to actionable elements on GUI screens. Most recent works of GUI action grounding leverage large GUI datasets to fine-tune MLLMs. However, the fine-tuning data always covers limited GUI environments, and we find the performance of the resulting model deteriorates in novel environments. We argue that the GUI grounding models should be further aligned to the novel environments to reveal their full potential, when the inference is known to involve novel environments, i.e., environments not used during the previous fine-tuning. To realize this, we first propose GUI-Bee, an MLLM-based autonomous agent, to collect high-quality, environment-specific data through exploration and then continuously fine-tune GUI grounding models with the collected data. Our agent leverages a novel Q-value-Incentive In-Context Reinforcement Learning (Q-ICRL) method to optimize exploration efficiency and data quality. Additionally, we introduce NovelScreenSpot, a benchmark for testing how well the data can help align GUI action grounding models to novel environments and demonstrate the effectiveness of data collected by GUI-Bee in the experiments. Furthermore, we conduct an ablation study to validate the Q-ICRL method in enhancing the efficiency of GUI-Bee. Project page: https://gui-bee.github.io
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)アクショングラウンドはGUIの自動化において重要なステップであり、GUI画面上の言語命令を実行可能な要素にマッピングする。
GUIアクショングラウンドディングの最近の研究は、大規模なGUIデータセットを微調整MLLMに活用している。
しかし、微調整データは常に限られたGUI環境をカバーしており、新しい環境において結果のモデルの性能が劣化していることが分かる。
提案手法では,従来の微調整で使用しなかった環境を推論することで,その潜在能力を明らかにするため,GUI接地モデルをさらに新しい環境に整合させることを論じる。
そこで我々はまず,MLLMをベースとした自律エージェントGUI-Beeを提案する。
我々のエージェントは、探索効率とデータ品質を最適化するために、新しいQ-value-Incentive In-Context Reinforcement Learning (Q-ICRL) 手法を利用する。
さらに,GUI-Bee が収集したデータの有効性を実証し,GUI アクショングラウンドモデルと新しい環境との整合性を評価するためのベンチマークである NovelScreenSpot も紹介した。
さらに,GUI-Beeの効率を向上させるため,Q-ICRL法の有効性を検証するためのアブレーション研究を行った。
プロジェクトページ:https://gui-bee.github.io
関連論文リスト
- WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation [20.11855701656702]
We present WorldGUI, a novel GUI benchmark that design GUI task with various initial state tosimulated real computer-user interaction。
また,GUIインタラクションの予測不能性と複雑性を効果的に管理する総合的なフレームワークであるGUI-Thinkerを提案する。
論文 参考訳(メタデータ) (2025-02-12T01:06:10Z) - Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。
また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。
UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-15T22:17:30Z) - Falcon-UI: Understanding GUI Before Following User Instructions [57.67308498231232]
インテリジェンスフリーなGUIナビゲーションデータセットであるInsight-UIデータセットを導入し、GUI環境のモデル理解を強化する。
Insight-UIデータセットはCommon Crawlコーパスから自動的に生成され、さまざまなプラットフォームをシミュレートする。
我々は、最初Insight-UIデータセットで事前訓練され、その後AndroidおよびWeb GUIデータセットで微調整されたGUIエージェントモデルFalcon-UIを開発した。
論文 参考訳(メタデータ) (2024-12-12T15:29:36Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。