論文の概要: ScaleTrack: Scaling and back-tracking Automated GUI Agents
- arxiv url: http://arxiv.org/abs/2505.00416v1
- Date: Thu, 01 May 2025 09:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.275417
- Title: ScaleTrack: Scaling and back-tracking Automated GUI Agents
- Title(参考訳): ScaleTrack: スケーリングとバックトラッキングによるGUIエージェントの自動化
- Authors: Jing Huang, Zhixiong Zeng, Wenkang Han, Yufeng Zhong, Liming Zheng, Shuai Fu, Jingyuan Chen, Lin Ma,
- Abstract要約: 自動GUIエージェントのグラウンドニングとバックトラック計画のスケーリングによるトレーニングフレームワークであるScaleTrackを提案する。
さまざまなソースから異なる合成基準のGUIサンプルを収集し,GUIグラウンドモデルをトレーニングするための同一テンプレートに統一する。
現在のGUIイメージから次のアクションを予測する新しいトレーニング戦略を設計し、GUIイメージに繋がった過去のアクションをバックトラックする。
- 参考スコア(独自算出の注目度): 11.046190201201348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated GUI agents aims to facilitate user interaction by automatically performing complex tasks in digital environments, such as web, mobile, desktop devices. It receives textual task instruction and GUI description to generate executable actions (\emph{e.g.}, click) and operation boxes step by step. Training a GUI agent mainly involves grounding and planning stages, in which the GUI grounding focuses on finding the execution coordinates according to the task, while the planning stage aims to predict the next action based on historical actions. However, previous work suffers from the limitations of insufficient training data for GUI grounding, as well as the ignorance of backtracking historical behaviors for GUI planning. To handle the above challenges, we propose ScaleTrack, a training framework by scaling grounding and backtracking planning for automated GUI agents. We carefully collected GUI samples of different synthesis criterions from a wide range of sources, and unified them into the same template for training GUI grounding models. Moreover, we design a novel training strategy that predicts the next action from the current GUI image, while also backtracking the historical actions that led to the GUI image. In this way, ScaleTrack explains the correspondence between GUI images and actions, which effectively describes the evolution rules of the GUI environment. Extensive experimental results demonstrate the effectiveness of ScaleTrack. Data and code will be available at url.
- Abstract(参考訳): 自動GUIエージェントは、Web、モバイル、デスクトップデバイスなどのデジタル環境において、複雑なタスクを自動的に実行することによって、ユーザインタラクションを促進することを目的としている。
テキストによるタスク命令とGUI記述を受け取り、実行可能なアクション(\emph{e g }, click)と操作ボックスをステップバイステップで生成する。
GUIエージェントのトレーニングは主に、タスクに従って実行座標を見つけることに焦点を当て、計画段階は歴史的行動に基づいて次のアクションを予測することを目的としている。
しかし、従来の作業はGUIグラウンディングのためのトレーニングデータ不足の限界と、GUI計画のための過去の行動の追跡の無知に悩まされていた。
上記の課題に対処するため、自動GUIエージェントのグラウンドニングとバックトラック計画のスケーリングによるトレーニングフレームワークであるScaleTrackを提案する。
様々なソースから異なる合成基準のGUIサンプルを注意深く収集し,GUI接地モデルのトレーニング用テンプレートに統一した。
さらに,現在のGUIイメージから次のアクションを予測する新たなトレーニング戦略を設計し,GUIイメージに繋がった過去のアクションをバックトラックする。
このように、ScaleTrackはGUIイメージとアクションの対応を説明し、GUI環境の進化ルールを効果的に記述する。
大規模な実験結果からScaleTrackの有効性が示された。
データとコードは url で利用可能だ。
関連論文リスト
- GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。
NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文 参考訳(メタデータ) (2025-01-23T18:16:21Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,画像LLMやビデオLLMなどの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2024-06-14T17:59:08Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。