論文の概要: Psychologically-Inspired, Unsupervised Inference of Perceptual Groups of
GUI Widgets from GUI Images
- arxiv url: http://arxiv.org/abs/2206.10352v2
- Date: Wed, 24 May 2023 01:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 03:21:10.274284
- Title: Psychologically-Inspired, Unsupervised Inference of Perceptual Groups of
GUI Widgets from GUI Images
- Title(参考訳): GUI画像からの知覚的GUIウィジェット群に対する心理的刺激的・教師なし推論
- Authors: Mulong Xie, Zhenchang Xing, Sidong Feng, Chunyang Chen, Liming Zhu,
Xiwei Xu
- Abstract要約: 本稿では,GUIウィジェットの知覚群を推定するための教師なし画像ベース手法を提案する。
772個のモバイルアプリと20個のUIデザインモックアップから収集した1,091個のGUIのデータセットによる評価は、我々の手法が最先端のアドホックベースのベースラインを大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 21.498096538797952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphical User Interface (GUI) is not merely a collection of individual and
unrelated widgets, but rather partitions discrete widgets into groups by
various visual cues, thus forming higher-order perceptual units such as tab,
menu, card or list. The ability to automatically segment a GUI into perceptual
groups of widgets constitutes a fundamental component of visual intelligence to
automate GUI design, implementation and automation tasks. Although humans can
partition a GUI into meaningful perceptual groups of widgets in a highly
reliable way, perceptual grouping is still an open challenge for computational
approaches. Existing methods rely on ad-hoc heuristics or supervised machine
learning that is dependent on specific GUI implementations and runtime
information. Research in psychology and biological vision has formulated a set
of principles (i.e., Gestalt theory of perception) that describe how humans
group elements in visual scenes based on visual cues like connectivity,
similarity, proximity and continuity. These principles are domain-independent
and have been widely adopted by practitioners to structure content on GUIs to
improve aesthetic pleasant and usability. Inspired by these principles, we
present a novel unsupervised image-based method for inferring perceptual groups
of GUI widgets. Our method requires only GUI pixel images, is independent of
GUI implementation, and does not require any training data. The evaluation on a
dataset of 1,091 GUIs collected from 772 mobile apps and 20 UI design mockups
shows that our method significantly outperforms the state-of-the-art ad-hoc
heuristics-based baseline. Our perceptual grouping method creates the
opportunities for improving UI-related software engineering tasks.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)は、単に個々のウィジェットと無関係なウィジェットの集合ではなく、様々な視覚的手がかりによってグループに分割し、タブ、メニュー、カード、リストなどの高次の知覚単位を形成する。
ウィジェットの知覚グループにGUIを自動的に分割する機能は、GUI設計、実装、自動化タスクを自動化する視覚知能の基本的な構成要素である。
人間はGUIを有意義な知覚的ウィジェット群に高信頼性で分割することができるが、知覚的グループ化は依然として計算手法のオープンな課題である。
既存の手法は特定のGUIの実装や実行時情報に依存するアドホックなヒューリスティックや教師付き機械学習に依存している。
心理学と生物学的ビジョンの研究は、接続性、類似性、近接性、連続性といった視覚的な手がかりに基づいて、人間の視覚シーンにおける要素をどのようにグループ化するかを記述する一連の原則を定式化した。
これらの原則は、ドメインに依存しないものであり、審美的でユーザビリティを向上させるためにGUI上のコンテンツを構築するために、実践者が広く採用してきた。
これらの原理に着想を得て,GUIウィジェットの知覚群を推定するための教師なし画像ベース手法を提案する。
提案手法はGUI画像のみを必要とし,GUI実装とは独立であり,トレーニングデータを必要としない。
772のモバイルアプリと20のUI設計モックアップから収集した1,091のGUIのデータセットに対する評価は、我々の手法が最先端のアドホックヒューリスティックスベースのベースラインを著しく上回っていることを示している。
我々の知覚的グループ化手法は、UI関連のソフトウェアエンジニアリングタスクを改善する機会を生み出す。
関連論文リスト
- GUI Agents: A Survey [129.94551809688377]
グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。
GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
論文 参考訳(メタデータ) (2024-12-18T04:48:28Z) - Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。
また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。
UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-15T22:17:30Z) - Falcon-UI: Understanding GUI Before Following User Instructions [57.67308498231232]
インテリジェンスフリーなGUIナビゲーションデータセットであるInsight-UIデータセットを導入し、GUI環境のモデル理解を強化する。
Insight-UIデータセットはCommon Crawlコーパスから自動的に生成され、さまざまなプラットフォームをシミュレートする。
我々は、最初Insight-UIデータセットで事前訓練され、その後AndroidおよびWeb GUIデータセットで微調整されたGUIエージェントモデルFalcon-UIを開発した。
論文 参考訳(メタデータ) (2024-12-12T15:29:36Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - Graph4GUI: Graph Neural Networks for Representing Graphical User Interfaces [27.84098739594353]
Graph4GUIはグラフニューラルネットワークを利用して、個々の要素の特性とセマンティックな空間的制約をレイアウトでキャプチャする。
学習された表現は、その効果を複数のタスクで示し、特に挑戦的なGUIオートコンプリートタスクで設計を生成する。
論文 参考訳(メタデータ) (2024-04-21T04:06:09Z) - GUILGET: GUI Layout GEneration with Transformer [26.457270239234383]
目標は、現実的で多様なGUIレイアウトを生成することで、GUI設計の最初のステップをサポートすることである。
GUILGETは、GUI-AGの要素間の関係のセマンティクスをキャプチャするために、トランスフォーマーに基づいている。
CLAYデータセットを用いて実験を行った結果,GUI-AGから関係を最もよく理解したモデルであることが判明した。
論文 参考訳(メタデータ) (2023-04-18T14:27:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。