論文の概要: Fragmented Layer Grouping in GUI Designs Through Graph Learning Based on Multimodal Information
- arxiv url: http://arxiv.org/abs/2412.05555v1
- Date: Sat, 07 Dec 2024 06:31:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:43.423079
- Title: Fragmented Layer Grouping in GUI Designs Through Graph Learning Based on Multimodal Information
- Title(参考訳): マルチモーダル情報に基づくグラフ学習によるGUI設計におけるフラグメンテッド・レイヤ・グループ化
- Authors: Yunnong Chen, Shuhong Xiao, Jiazhi Li, Tingting Zhou, Yanfang Chang, Yankun Zhen, Lingyun Sun, Liuqing Chen,
- Abstract要約: 産業的なGUI-to-codeプロセスでは、断片化されたレイヤによって生成されたコードの可読性と保守性が低下する可能性がある。
本研究では,設計プロトタイプのマルチモーダル情報に基づいて,断片化層群問題にグラフ学習に基づくアプローチを提案する。
- 参考スコア(独自算出の注目度): 12.302861965706885
- License:
- Abstract: Automatically constructing GUI groups of different granularities constitutes a critical intelligent step towards automating GUI design and implementation tasks. Specifically, in the industrial GUI-to-code process, fragmented layers may decrease the readability and maintainability of generated code, which can be alleviated by grouping semantically consistent fragmented layers in the design prototypes. This study aims to propose a graph-learning-based approach to tackle the fragmented layer grouping problem according to multi-modal information in design prototypes. Our graph learning module consists of self-attention and graph neural network modules. By taking the multimodal fused representation of GUI layers as input, we innovatively group fragmented layers by classifying GUI layers and regressing the bounding boxes of the corresponding GUI components simultaneously. Experiments on two real-world datasets demonstrate that our model achieves state-of-the-art performance. A further user study is also conducted to validate that our approach can assist an intelligent downstream tool in generating more maintainable and readable front-end code.
- Abstract(参考訳): 異なる粒度のGUIグループを自動的に構築することは、GUI設計と実装タスクを自動化するための重要なインテリジェントなステップである。
特に、産業的なGUI-to-codeプロセスでは、断片化されたレイヤは、生成したコードの可読性と保守性を低下させ、設計プロトタイプで意味的に一貫した断片化されたレイヤをグループ化することで緩和することができる。
本研究は,設計プロトタイプにおけるマルチモーダル情報に基づいて,断片化層群問題に対処するためのグラフ学習に基づくアプローチを提案することを目的とする。
グラフ学習モジュールは自己アテンションとグラフニューラルネットワークモジュールから構成される。
GUIレイヤのマルチモーダルな融合表現を入力として、GUIレイヤを分類し、対応するGUIコンポーネントのバウンディングボックスを同時に回帰することで、断片化されたレイヤを革新的にグループ化する。
2つの実世界のデータセットの実験により、我々のモデルが最先端のパフォーマンスを達成することを示す。
より保守的で読みやすいフロントエンドコードを生成する上で,私たちのアプローチがインテリジェントなダウンストリームツールを支援することを検証するために,さらなるユーザスタディも実施されている。
関連論文リスト
- Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。
このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。
複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-26T18:38:38Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data [15.801018643716437]
本稿では,大規模視覚言語モデル(LVLM)のGUI理解と対話能力を,データ駆動型アプローチにより向上することを目的とする。
本稿では,Web上のWebページから大規模で粒度の高いトレーニングデータを自動的に生成する汎用データ合成フレームワークEDGEを提案する。
提案手法は,手動アノテーションへの依存を著しく低減し,研究者がWeb上で利用可能な膨大な公開リソースを活用して作業を進めることを可能にする。
論文 参考訳(メタデータ) (2024-10-25T10:46:17Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - Graph4GUI: Graph Neural Networks for Representing Graphical User Interfaces [27.84098739594353]
Graph4GUIはグラフニューラルネットワークを利用して、個々の要素の特性とセマンティックな空間的制約をレイアウトでキャプチャする。
学習された表現は、その効果を複数のタスクで示し、特に挑戦的なGUIオートコンプリートタスクで設計を生成する。
論文 参考訳(メタデータ) (2024-04-21T04:06:09Z) - De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。
様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文 参考訳(メタデータ) (2023-11-21T06:24:09Z) - UI Layers Group Detector: Grouping UI Layers via Text Fusion and Box
Attention [7.614630088064978]
画像(基本的な形状や視覚要素)と同じ意味を持つテキスト層を自動的に検出する視覚ベースの手法を提案する。
トレーニングとテストのための大規模なUIデータセットを構築し,検出性能を高めるためのデータ拡張アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-07T03:50:20Z) - Psychologically-Inspired, Unsupervised Inference of Perceptual Groups of
GUI Widgets from GUI Images [21.498096538797952]
本稿では,GUIウィジェットの知覚群を推定するための教師なし画像ベース手法を提案する。
772個のモバイルアプリと20個のUIデザインモックアップから収集した1,091個のGUIのデータセットによる評価は、我々の手法が最先端のアドホックベースのベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2022-06-15T05:16:03Z) - Graph-Based Neural Network Models with Multiple Self-Supervised
Auxiliary Tasks [79.28094304325116]
グラフ畳み込みネットワークは、構造化されたデータポイント間の関係をキャプチャするための最も有望なアプローチである。
マルチタスク方式でグラフベースニューラルネットワークモデルを学習するための3つの新しい自己教師付き補助タスクを提案する。
論文 参考訳(メタデータ) (2020-11-14T11:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。