Fugu-MT 論文翻訳(概要): Fragmented Layer Grouping in GUI Designs Through Graph Learning Based on Multimodal Information

論文の概要: Fragmented Layer Grouping in GUI Designs Through Graph Learning Based on Multimodal Information

arxiv url: http://arxiv.org/abs/2412.05555v1
Date: Sat, 07 Dec 2024 06:31:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:43.903283
Title: Fragmented Layer Grouping in GUI Designs Through Graph Learning Based on Multimodal Information
Title（参考訳）: マルチモーダル情報に基づくグラフ学習によるGUI設計におけるフラグメンテッド・レイヤ・グループ化
Authors: Yunnong Chen, Shuhong Xiao, Jiazhi Li, Tingting Zhou, Yanfang Chang, Yankun Zhen, Lingyun Sun, Liuqing Chen,
Abstract要約: 産業的なGUI-to-codeプロセスでは、断片化されたレイヤによって生成されたコードの可読性と保守性が低下する可能性がある。本研究では,設計プロトタイプのマルチモーダル情報に基づいて,断片化層群問題にグラフ学習に基づくアプローチを提案する。
参考スコア（独自算出の注目度）: 12.302861965706885
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatically constructing GUI groups of different granularities constitutes a critical intelligent step towards automating GUI design and implementation tasks. Specifically, in the industrial GUI-to-code process, fragmented layers may decrease the readability and maintainability of generated code, which can be alleviated by grouping semantically consistent fragmented layers in the design prototypes. This study aims to propose a graph-learning-based approach to tackle the fragmented layer grouping problem according to multi-modal information in design prototypes. Our graph learning module consists of self-attention and graph neural network modules. By taking the multimodal fused representation of GUI layers as input, we innovatively group fragmented layers by classifying GUI layers and regressing the bounding boxes of the corresponding GUI components simultaneously. Experiments on two real-world datasets demonstrate that our model achieves state-of-the-art performance. A further user study is also conducted to validate that our approach can assist an intelligent downstream tool in generating more maintainable and readable front-end code.
Abstract（参考訳）: 異なる粒度のGUIグループを自動的に構築することは、GUI設計と実装タスクを自動化するための重要なインテリジェントなステップである。特に、産業的なGUI-to-codeプロセスでは、断片化されたレイヤは、生成したコードの可読性と保守性を低下させ、設計プロトタイプで意味的に一貫した断片化されたレイヤをグループ化することで緩和することができる。本研究は,設計プロトタイプにおけるマルチモーダル情報に基づいて,断片化層群問題に対処するためのグラフ学習に基づくアプローチを提案することを目的とする。グラフ学習モジュールは自己アテンションとグラフニューラルネットワークモジュールから構成される。 GUIレイヤのマルチモーダルな融合表現を入力として、GUIレイヤを分類し、対応するGUIコンポーネントのバウンディングボックスを同時に回帰することで、断片化されたレイヤを革新的にグループ化する。 2つの実世界のデータセットの実験により、我々のモデルが最先端のパフォーマンスを達成することを示す。より保守的で読みやすいフロントエンドコードを生成する上で,私たちのアプローチがインテリジェントなダウンストリームツールを支援することを検証するために,さらなるユーザスタディも実施されている。

関連論文リスト

GUI-ReRank: Enhancing GUI Retrieval with Multi-Modal LLM-based Reranking [55.762798168494726]
GUI-ReRankは、高速な埋め込みに基づく制約付き検索モデルと、非常に効果的なMLLMベースのリグレード技術を統合する新しいフレームワークである。提案手法を確立されたNLベースのGUI検索ベンチマークで評価した。
論文参考訳（メタデータ） (2025-08-05T10:17:38Z)
Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文参考訳（メタデータ） (2025-06-22T06:30:52Z)
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文参考訳（メタデータ） (2025-06-05T04:12:36Z)
A Summary on GUI Agents with Foundation Models Enhanced by Reinforcement Learning [13.091740188171915]
本稿では,グラフィカルユーザインタフェース(GUI)エージェントの最近の進歩を概説する。まず、GUIエージェントタスクをマルコフ決定プロセスとして定式化し、典型的な実行環境と評価指標について議論する。次に、(M)LLMベースのGUIエージェントのモジュールアーキテクチャをレビューし、パーセプション、プランニング、アクティベーションモジュールをカバーし、それらの進化を代表的作業を通して追跡する。本稿では, 複合現実環境におけるGUIエージェントの一般化とロバスト性について, マルチモーダル認識, 決定推論, 適応行動生成における最近の革新が, どのようにして大幅に向上したかを述べる。
論文参考訳（メタデータ） (2025-04-29T06:55:15Z)
GUIDE: LLM-Driven GUI Generation Decomposition for Automated Prototyping [55.762798168494726]
印象的なコード生成機能を備えた大規模言語モデル(LLM)は、GUIプロトタイピングを自動化するための有望なアプローチを提供する。しかし、現在のLLMベースのプロトタイピングソリューションと従来のユーザベースのGUIプロトタイピングアプローチの間にはギャップがある。プロトタイピングフレームワークであるFigmaにシームレスに統合された新しいLLM駆動GUI生成分解手法であるGUIDEを提案する。
論文参考訳（メタデータ） (2025-02-28T14:03:53Z)
Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。 UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-15T22:17:30Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
Large Language Model-Brained GUI Agents: A Survey [42.82362907348966]
マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
論文参考訳（メタデータ） (2024-11-27T12:13:39Z)
Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-11-26T18:38:38Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data [15.801018643716437]
本稿では,大規模視覚言語モデル(LVLM)のGUI理解と対話能力を,データ駆動型アプローチにより向上することを目的とする。本稿では,Web上のWebページから大規模で粒度の高いトレーニングデータを自動的に生成する汎用データ合成フレームワークEDGEを提案する。提案手法は,手動アノテーションへの依存を著しく低減し,研究者がWeb上で利用可能な膨大な公開リソースを活用して作業を進めることを可能にする。
論文参考訳（メタデータ） (2024-10-25T10:46:17Z)
GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文参考訳（メタデータ） (2024-06-17T08:30:55Z)
GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文参考訳（メタデータ） (2024-06-16T06:56:53Z)
Graph4GUI: Graph Neural Networks for Representing Graphical User Interfaces [27.84098739594353]
Graph4GUIはグラフニューラルネットワークを利用して、個々の要素の特性とセマンティックな空間的制約をレイアウトでキャプチャする。学習された表現は、その効果を複数のタスクで示し、特に挑戦的なGUIオートコンプリートタスクで設計を生成する。
論文参考訳（メタデータ） (2024-04-21T04:06:09Z)
UI Layers Group Detector: Grouping UI Layers via Text Fusion and Box Attention [7.614630088064978]
画像(基本的な形状や視覚要素)と同じ意味を持つテキスト層を自動的に検出する視覚ベースの手法を提案する。トレーニングとテストのための大規模なUIデータセットを構築し,検出性能を高めるためのデータ拡張アプローチを提案する。
論文参考訳（メタデータ） (2022-12-07T03:50:20Z)
Graph-Based Neural Network Models with Multiple Self-Supervised Auxiliary Tasks [79.28094304325116]
グラフ畳み込みネットワークは、構造化されたデータポイント間の関係をキャプチャするための最も有望なアプローチである。マルチタスク方式でグラフベースニューラルネットワークモデルを学習するための3つの新しい自己教師付き補助タスクを提案する。
論文参考訳（メタデータ） (2020-11-14T11:09:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。