論文の概要: Explorer: Robust Collection of Interactable GUI Elements
- arxiv url: http://arxiv.org/abs/2504.09352v1
- Date: Sat, 12 Apr 2025 22:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:53:48.091489
- Title: Explorer: Robust Collection of Interactable GUI Elements
- Title(参考訳): Explorer: 対話可能なGUI要素のロバストコレクション
- Authors: Iason Chaimalas, Arnas Vyšniauskas, Gabriel Brostow,
- Abstract要約: 私たちは、あるユーザに対して、あるアプリやデジタル環境を通じて、関連するUI要素が正しく検出されていることを、いかに信頼する必要があるかを示します。
Proposed Explorerシステムは、トレーニングプロセスがアプリケーションのライブバージョンにアクセス可能なオンスクリーンボタンとテキスト入力フィールドを検出することに焦点を当てている。
Explorerはまた、インタラクティブなユーザーセッションの記録を可能にし、その後のセッションがどのように重複し、時として同様の状態に戻るかのマッピングを可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Automation of existing Graphical User Interfaces (GUIs) is important but hard to achieve. Upstream of making the GUI user-accessible or somehow scriptable, even the data-collection to understand the original interface poses significant challenges. For example, large quantities of general UI data seem helpful for training general machine learning (ML) models, but accessibility for each person can hinge on the ML's precision on a specific app. We therefore take the perspective that a given user needs confidence, that the relevant UI elements are being detected correctly throughout one app or digital environment. We mostly assume that the target application is known in advance, so that data collection and ML-training can be personalized for the test-time target domain. The proposed Explorer system focuses on detecting on-screen buttons and text-entry fields, i.e. interactables, where the training process has access to a live version of the application. The live application can run on almost any popular platform except iOS phones, and the collection is especially streamlined for Android phones or for desktop Chrome browsers. Explorer also enables the recording of interactive user sessions, and subsequent mapping of how such sessions overlap and sometimes loop back to similar states. We show how having such a map enables a kind of path planning through the GUI, letting a user issue audio commands to get to their destination. Critically, we are releasing our code for Explorer openly at https://github.com/varnelis/Explorer.
- Abstract(参考訳): 既存のグラフィカルユーザインタフェース(GUI)の自動化は重要だが、達成は難しい。
GUIをユーザアクセス可能か、あるいは何らかのスクリプト可能にする上流では、元のインターフェースを理解するためのデータ収集でさえ、大きな課題を引き起こします。
例えば、大量の汎用UIデータは、一般的な機械学習(ML)モデルをトレーニングするのに役立ちそうだが、各人のアクセシビリティは、特定のアプリにMLの精度を隠蔽することができる。
したがって、あるユーザが信頼を必要とし、関連するUI要素が1つのアプリまたはデジタル環境全体にわたって正しく検出されている、という視点をとっています。
データ収集とMLトレーニングをテスト時間対象ドメインにパーソナライズすることができる。
提案するエクスプローラーシステムは、画面上のボタンとテキスト入力フィールド、すなわち、トレーニングプロセスがアプリケーションのライブバージョンにアクセス可能な対話性を検出することに焦点を当てている。
ライブアプリケーションはiOSフォンを除くほぼすべての人気プラットフォーム上で動作し、コレクションは特にAndroidフォンやデスクトップChromeブラウザ向けに合理化されている。
Explorerはまた、インタラクティブなユーザーセッションの記録を可能にし、その後のセッションがどのように重複し、時として同様の状態に戻るかのマッピングを可能にする。
このような地図がGUIを通して何らかの経路計画を可能にし、ユーザが目的地に着くための音声コマンドを発行できることを示します。
重要なことは、Explorerのコードをhttps://github.com/varnelis/Explorer.comで公開しています。
関連論文リスト
- AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs [54.58905728115257]
本稿では,UI要素を自動的に注釈付けするためのメソッド名パイプラインを提案する。
具体的には、大きな言語モデル(LLM)を利用して、特定のUI要素との対話の前後のUI内容の変化を比較して要素機能を推測する。
提案したパイプラインを用いて,マルチレゾリューション,マルチデバイススクリーンショット,多様なデータドメイン,以前のデータセットで提供されていない詳細な機能アノテーションを特徴とするメソッドネーム704kデータセットを構築した。
論文 参考訳(メタデータ) (2025-02-04T03:39:59Z) - Falcon-UI: Understanding GUI Before Following User Instructions [57.67308498231232]
インテリジェンスフリーなGUIナビゲーションデータセットであるInsight-UIデータセットを導入し、GUI環境のモデル理解を強化する。
Insight-UIデータセットはCommon Crawlコーパスから自動的に生成され、さまざまなプラットフォームをシミュレートする。
我々は、最初Insight-UIデータセットで事前訓練され、その後AndroidおよびWeb GUIデータセットで微調整されたGUIエージェントモデルFalcon-UIを開発した。
論文 参考訳(メタデータ) (2024-12-12T15:29:36Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Ponder & Press: Advancing Visual GUI Agent towards General Computer Control [13.39115823642937]
Ponder & Press(ポンダー・アンド・プレス)は、視覚的入力のみを使用する汎用コンピュータ制御のための分断型フレームワークである。
我々のエージェントは、幅広い応用に適用可能な、多目的で人間のような相互作用パラダイムを提供する。
論文 参考訳(メタデータ) (2024-12-02T08:35:31Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,画像LLMやビデオLLMなどの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z) - META-GUI: Towards Multi-modal Conversational Agents on Mobile GUI [28.484013258445067]
我々はGUIベースのタスク指向対話システム(GUI-TOD)という新しいTODアーキテクチャを提案する。
GUI-TODシステムは、バックエンドAPIを呼び出すことなく、実際のAPP上でGUI操作を直接実行し、タスクを実行することができる。
モバイルGUI上でマルチモーダル対話エージェントをトレーニングするためのデータセットであるMETA-GUIをリリースする。
論文 参考訳(メタデータ) (2022-05-23T04:05:37Z) - ActionBert: Leveraging User Actions for Semantic Understanding of User
Interfaces [12.52699475631247]
ActionBertと呼ばれる新しいトレーニング済みのUI表現モデルを紹介します。
本手法は,ユーザインタラクショントレースにおける視覚的,言語的,ドメイン特有の特徴を活用し,uiとそのコンポーネントの汎用的な特徴表現を事前学習するように設計されている。
実験により、提案するactionbertモデルは、下流タスク全体のマルチモーダルベースラインを最大15.5%上回ることがわかった。
論文 参考訳(メタデータ) (2020-12-22T20:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。