Fugu-MT 論文翻訳(概要): Graph4GUI: Graph Neural Networks for Representing Graphical User Interfaces

論文の概要: Graph4GUI: Graph Neural Networks for Representing Graphical User Interfaces

arxiv url: http://arxiv.org/abs/2404.13521v1
Date: Sun, 21 Apr 2024 04:06:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 18:40:56.608168
Title: Graph4GUI: Graph Neural Networks for Representing Graphical User Interfaces
Title（参考訳）: Graph4GUI: グラフィカルユーザインタフェースを表現するグラフニューラルネットワーク
Authors: Yue Jiang, Changkong Zhou, Vikas Garg, Antti Oulasvirta,
Abstract要約: Graph4GUIはグラフニューラルネットワークを利用して、個々の要素の特性とセマンティックな空間的制約をレイアウトでキャプチャする。学習された表現は、その効果を複数のタスクで示し、特に挑戦的なGUIオートコンプリートタスクで設計を生成する。
参考スコア（独自算出の注目度）: 27.84098739594353
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Present-day graphical user interfaces (GUIs) exhibit diverse arrangements of text, graphics, and interactive elements such as buttons and menus, but representations of GUIs have not kept up. They do not encapsulate both semantic and visuo-spatial relationships among elements. To seize machine learning's potential for GUIs more efficiently, Graph4GUI exploits graph neural networks to capture individual elements' properties and their semantic-visuo-spatial constraints in a layout. The learned representation demonstrated its effectiveness in multiple tasks, especially generating designs in a challenging GUI autocompletion task, which involved predicting the positions of remaining unplaced elements in a partially completed GUI. The new model's suggestions showed alignment and visual appeal superior to the baseline method and received higher subjective ratings for preference. Furthermore, we demonstrate the practical benefits and efficiency advantages designers perceive when utilizing our model as an autocompletion plug-in.
Abstract（参考訳）: 現在のGUIは、テキスト、グラフィック、ボタンやメニューなどのインタラクティブな要素を多種多様な配置で表現しているが、GUIの表現は維持されていない。彼らは要素間の意味的関係と空間的関係の両方をカプセル化しない。機械学習によるGUIの可能性をより効率的に把握するために、Graph4GUIはグラフニューラルネットワークを利用して、個々の要素のプロパティとそれらのセマンティック視覚空間的制約をレイアウトでキャプチャする。学習された表現は、その効果を複数のタスクで示し、特に、部分的に完成したGUIで残されている未配置要素の位置を予測する挑戦的なGUIオートコンプリートタスクで設計を生成する。新しいモデルの提案は、基準法よりもアライメントと視覚的魅力を示し、嗜好に対して高い主観的評価を受けた。さらに,自動補完プラグインとしてモデルを利用する場合,設計者が認識する実用的メリットと効率性について述べる。

関連論文リスト

UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis [15.429065788185522]
様々な複雑な命令データセットを生成するために,大規模なデータ合成パイプライン UI-E2I- Synth を導入する。既存のベンチマークの限界に対処する新しいGUI命令基底ベンチマークであるUI-I2E-Benchを提案する。合成データに基づいて学習した本モデルは,GUI命令のグラウンドリングにおいて優れた性能を実現する。
論文参考訳（メタデータ） (2025-04-15T14:56:21Z)
MP-GUI: Modality Perception with MLLMs for GUI Understanding [12.812289005013797]
MP-GUIはGUI理解のための特別に設計されたMLLMである。 MP-GUIは、画面からグラフィカル、テキスト、空間のモダリティを抽出する3つの専門のパーシーバーを備えている。トレーニングデータの不足に対処するため,自動データ収集のためのパイプラインも導入する。
論文参考訳（メタデータ） (2025-03-18T08:32:22Z)
Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。 UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-15T22:17:30Z)
Falcon-UI: Understanding GUI Before Following User Instructions [57.67308498231232]
インテリジェンスフリーなGUIナビゲーションデータセットであるInsight-UIデータセットを導入し、GUI環境のモデル理解を強化する。 Insight-UIデータセットはCommon Crawlコーパスから自動的に生成され、さまざまなプラットフォームをシミュレートする。我々は、最初Insight-UIデータセットで事前訓練され、その後AndroidおよびWeb GUIデータセットで微調整されたGUIエージェントモデルFalcon-UIを開発した。
論文参考訳（メタデータ） (2024-12-12T15:29:36Z)
Fragmented Layer Grouping in GUI Designs Through Graph Learning Based on Multimodal Information [12.302861965706885]
産業的なGUI-to-codeプロセスでは、断片化されたレイヤによって生成されたコードの可読性と保守性が低下する可能性がある。本研究では,設計プロトタイプのマルチモーダル情報に基づいて,断片化層群問題にグラフ学習に基づくアプローチを提案する。
論文参考訳（メタデータ） (2024-12-07T06:31:09Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents [20.08996257335876]
環境を視覚的に完全に知覚し,GUI上でのピクセルレベルの操作を直接行う,GUIエージェントのためのヒューマンライクなエボディメントを提唱する。これまでに10MのGUI要素と参照式を1.3Mのスクリーンショット上に収めた、GUIの視覚的接地のための最大のデータセットを収集しました。ウェブベースの合成データとLLaVAアーキテクチャの若干の適応を含む簡単なレシピは、このような視覚的接地モデルのトレーニングに驚くほど効果的であることを示す。
論文参考訳（メタデータ） (2024-10-07T17:47:50Z)
GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文参考訳（メタデータ） (2024-06-17T08:30:55Z)
GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文参考訳（メタデータ） (2024-06-16T06:56:53Z)
VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文参考訳（メタデータ） (2024-06-14T17:59:08Z)
From Pixels to UI Actions: Learning to Follow Instructions via Graphical User Interfaces [66.85108822706489]
本稿では,人間がよく使う概念的インタフェースを用いて,デジタル世界と対話するエージェントを作成することに焦点を当てる。このようなエージェントは、タスクに従うGUIベースの命令のMiniWob++ベンチマークで、人間のクラウドワーカーより優れています。
論文参考訳（メタデータ） (2023-05-31T23:39:18Z)
GUILGET: GUI Layout GEneration with Transformer [26.457270239234383]
目標は、現実的で多様なGUIレイアウトを生成することで、GUI設計の最初のステップをサポートすることである。 GUILGETは、GUI-AGの要素間の関係のセマンティクスをキャプチャするために、トランスフォーマーに基づいている。 CLAYデータセットを用いて実験を行った結果,GUI-AGから関係を最もよく理解したモデルであることが判明した。
論文参考訳（メタデータ） (2023-04-18T14:27:34Z)
Psychologically-Inspired, Unsupervised Inference of Perceptual Groups of GUI Widgets from GUI Images [21.498096538797952]
本稿では,GUIウィジェットの知覚群を推定するための教師なし画像ベース手法を提案する。 772個のモバイルアプリと20個のUIデザインモックアップから収集した1,091個のGUIのデータセットによる評価は、我々の手法が最先端のアドホックベースのベースラインを大幅に上回っていることを示している。
論文参考訳（メタデータ） (2022-06-15T05:16:03Z)
Object Detection for Graphical User Interface: Old Fashioned or Deep Learning or a Combination? [21.91118062303175]
我々は,50k以上のGUI画像上で7つの代表的GUI要素検出手法について,大規模な実証的研究を行った。本研究は、解決すべき技術的課題に光を当て、新しいGUI要素検出手法の設計について報告する。 25,000個のGUI画像に対する評価は,GUI要素検出における最先端性能を著しく向上させることを示す。
論文参考訳（メタデータ） (2020-08-12T06:36:33Z)
GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training [62.73470368851127]
グラフ表現学習は現実世界の問題に対処する強力な手法として登場した。自己教師付きグラフニューラルネットワーク事前トレーニングフレームワークであるGraph Contrastive Codingを設計する。 3つのグラフ学習タスクと10のグラフデータセットについて実験を行った。
論文参考訳（メタデータ） (2020-06-17T16:18:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。