論文の概要: GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent
- arxiv url: http://arxiv.org/abs/2505.16827v1
- Date: Thu, 22 May 2025 16:01:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.426825
- Title: GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent
- Title(参考訳): GUI-Explorer:GUIエージェントのための遷移認識知識の自律的探索とマイニング
- Authors: Bin Xie, Rui Shao, Gongwei Chen, Kaiwen Zhou, Yinchuan Li, Jie Liu, Min Zhang, Liqiang Nie,
- Abstract要約: MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。
本稿では,2つの基本的なメカニズムを組み込んだトレーニング不要なGUIエージェントであるGUI-Explorerを提案する。
SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 66.34801160469067
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: GUI automation faces critical challenges in dynamic environments. MLLMs suffer from two key issues: misinterpreting UI components and outdated knowledge. Traditional fine-tuning methods are costly for app-specific knowledge updates. We propose GUI-explorer, a training-free GUI agent that incorporates two fundamental mechanisms: (1) Autonomous Exploration of Function-aware Trajectory. To comprehensively cover all application functionalities, we design a Function-aware Task Goal Generator that automatically constructs exploration goals by analyzing GUI structural information (e.g., screenshots and activity hierarchies). This enables systematic exploration to collect diverse trajectories. (2) Unsupervised Mining of Transition-aware Knowledge. To establish precise screen-operation logic, we develop a Transition-aware Knowledge Extractor that extracts effective screen-operation logic through unsupervised analysis the state transition of structured interaction triples (observation, action, outcome). This eliminates the need for human involvement in knowledge extraction. With a task success rate of 53.7% on SPA-Bench and 47.4% on AndroidWorld, GUI-explorer shows significant improvements over SOTA agents. It requires no parameter updates for new apps. GUI-explorer is open-sourced and publicly available at https://github.com/JiuTian-VL/GUI-explorer.
- Abstract(参考訳): GUI自動化は動的環境において重要な課題に直面します。
MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。
従来の微調整方法は、アプリ固有の知識更新に費用がかかる。
本稿では,(1)機能認識軌道の自律的探索という2つの基本的なメカニズムを組み込んだ,トレーニング不要なGUIエージェントGUI探索機を提案する。
アプリケーション機能をすべて包括的にカバーするために,GUI構造情報(スクリーンショット,アクティビティ階層など)を分析し,探索目標を自動的に構築する機能対応タスクゴールジェネレータを設計する。
これにより、系統的な探索によって様々な軌道を収集できる。
2)トランジッション・アウェア・ナレッジの非監督的マイニング
正確な画面操作ロジックを確立するために,構造化相互作用三重項の状態遷移(観測,動作,結果)を教師なし解析することにより,効果的な画面操作ロジックを抽出する遷移認識知識エクストラクタを開発した。
これにより、知識抽出に人間が関与する必要がなくなる。
SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。
新しいアプリのパラメータ更新は不要だ。
GUI-Explorerは、https://github.com/JiuTian-VL/GUI-Explorerで公開されている。
関連論文リスト
- TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials [70.06743063375121]
リッチなマルチモーダルWebチュートリアルから学習し,汎用GUIエージェントを構築するTongUIフレームワークを提案する。
我々は、5つのオペレーティングシステムと200以上のアプリケーションにまたがる143Kトラジェクトリデータを含むGUI-Netデータセットを作成する。
我々はGUI-Net上でQwen2.5-VL-3B/7Bモデルを微調整してTongUIエージェントを開発する。
論文 参考訳(メタデータ) (2025-04-17T06:15:56Z) - GUI-Xplore: Empowering Generalizable GUI Agents with One Exploration [22.814882629516635]
GUI-Xploreは、クロスアプリケーションとクロスタスクの一般化を強化するために細心の注意を払って設計されたデータセットである。
GUI-Xploreのユニークな機能をフル活用するために,Action-aware GUI ModelingとGraph-Guided Environment Reasoningを組み合わせたGUIエージェントフレームワークであるXplore-Agentを提案する。
論文 参考訳(メタデータ) (2025-03-22T09:30:37Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Large Language Model-Brained GUI Agents: A Survey [42.82362907348966]
マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。
彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。
これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
論文 参考訳(メタデータ) (2024-11-27T12:13:39Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。