論文の概要: Pairwise GUI Dataset Construction Between Android Phones and Tablets
- arxiv url: http://arxiv.org/abs/2310.04755v1
- Date: Sat, 7 Oct 2023 09:30:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 15:46:40.246215
- Title: Pairwise GUI Dataset Construction Between Android Phones and Tablets
- Title(参考訳): Android Phoneとタブレット間のペアワイズGUIデータセット構築
- Authors: Han Hu, Haolan Zhan, Yujin Huang, Di Liu
- Abstract要約: Paptデータセットは、Androidスマートフォンとタブレット用に調整されたペアワイズGUIデータセットである。
本稿では,このデータセット構築のための新しいGUIコレクション手法を提案する。
- 参考スコア(独自算出の注目度): 24.208087862974033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the current landscape of pervasive smartphones and tablets, apps
frequently exist across both platforms. Although apps share most graphic user
interfaces (GUIs) and functionalities across phones and tablets, developers
often rebuild from scratch for tablet versions, escalating costs and
squandering existing design resources. Researchers are attempting to collect
data and employ deep learning in automated GUIs development to enhance
developers' productivity. There are currently several publicly accessible GUI
page datasets for phones, but none for pairwise GUIs between phones and
tablets. This poses a significant barrier to the employment of deep learning in
automated GUI development. In this paper, we introduce the Papt dataset, a
pioneering pairwise GUI dataset tailored for Android phones and tablets,
encompassing 10,035 phone-tablet GUI page pairs sourced from 5,593 unique app
pairs. We propose novel pairwise GUI collection approaches for constructing
this dataset and delineate its advantages over currently prevailing datasets in
the field. Through preliminary experiments on this dataset, we analyze the
present challenges of utilizing deep learning in automated GUI development.
- Abstract(参考訳): 現在の普及型スマートフォンやタブレットでは、アプリは両プラットフォームにまたがって頻繁に存在する。
アプリは、ほとんどのグラフィックユーザーインターフェース(GUI)と、携帯電話やタブレットで機能を共有しているが、開発者はタブレットバージョンのためにスクラッチから再構築し、コストを増大させ、既存のデザインリソースを浪費することが多い。
研究者はデータを収集し、開発者の生産性を高めるために、自動gui開発にディープラーニングを採用しようとしている。
現在、携帯電話向けに公開されているGUIページデータセットはいくつかあるが、携帯電話とタブレット間のGUIのペアは存在しない。
これは、GUI自動開発におけるディープラーニングの活用に大きな障壁となる。
本稿では,Android端末とタブレット向けに開発されたペアワイズGUIデータセットであるPaptデータセットを紹介し,5,593個のユニークなアプリペアをソースとする10,035個の電話テーブルGUIページペアを包含する。
本稿では、このデータセットを構築するための新しいペアワイズGUIコレクション手法を提案し、その利点をこの分野で現在普及しているデータセットよりも明確にする。
本データセットの予備実験を通じて,GUI自動開発におけるディープラーニング活用の課題を分析した。
関連論文リスト
- ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.37173845836839]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。
現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文 参考訳(メタデータ) (2024-10-30T17:10:19Z) - AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。
AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文 参考訳(メタデータ) (2024-07-03T17:59:58Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices [61.48043339441149]
GUI Odysseyは6つのモバイルデバイスから7,735エピソードで構成され、6種類のクロスアプリタスク、201のアプリ、1.4Kのアプリコンボで構成されている。
履歴再サンプリングモジュールを用いたQwen-VLモデルの微調整により,マルチモーダルなクロスアプリナビゲーションエージェントであるOdysseyAgentを開発した。
論文 参考訳(メタデータ) (2024-06-12T17:44:26Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z) - A Pairwise Dataset for GUI Conversion and Retrieval between Android
Phones and Tablets [24.208087862974033]
Paptデータセットは、Androidスマートフォンとタブレット間のGUI変換と検索のためのペアワイズデータセットである。
データセットには5,593の電話-タブレットアプリペアから10,035の電話-タブレットGUIページペアが含まれている。
論文 参考訳(メタデータ) (2023-07-25T03:25:56Z) - Automated Mapping of Adaptive App GUIs from Phones to TVs [31.207923538204795]
既存のモバイルアプリのGUIをテレビにマップする技術では、応答性のあるデザインを採用するか、ミラーアプリを使ってビデオディスプレイを改善する。
そこで本稿では,携帯電話のGUIを入力として,対応する適応型TV GUIを生成するための半自動アプローチを提案する。
当社のツールは、開発者だけでなく、テレビアプリ開発のために生成されたGUIをさらにカスタマイズできるGUIデザイナにとっても有益です。
論文 参考訳(メタデータ) (2023-07-24T04:35:51Z) - META-GUI: Towards Multi-modal Conversational Agents on Mobile GUI [28.484013258445067]
我々はGUIベースのタスク指向対話システム(GUI-TOD)という新しいTODアーキテクチャを提案する。
GUI-TODシステムは、バックエンドAPIを呼び出すことなく、実際のAPP上でGUI操作を直接実行し、タスクを実行することができる。
モバイルGUI上でマルチモーダル対話エージェントをトレーニングするためのデータセットであるMETA-GUIをリリースする。
論文 参考訳(メタデータ) (2022-05-23T04:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。