Fugu-MT 論文翻訳(概要): UI Layers Group Detector: Grouping UI Layers via Text Fusion and Box Attention

論文の概要: UI Layers Group Detector: Grouping UI Layers via Text Fusion and Box Attention

arxiv url: http://arxiv.org/abs/2212.03440v1
Date: Wed, 7 Dec 2022 03:50:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 16:15:03.402004
Title: UI Layers Group Detector: Grouping UI Layers via Text Fusion and Box Attention
Title（参考訳）: UI Layers Group Detector: テキストフュージョンとボックスアテンションによるUIレイヤのグループ化
Authors: Shuhong Xiao, Tingting Zhou, Yunnong Chen, Dengming Zhang, Liuqing Chen, Lingyun Sun, Shiyu Yue
Abstract要約: 画像(基本的な形状や視覚要素)と同じ意味を持つテキスト層を自動的に検出する視覚ベースの手法を提案する。トレーニングとテストのための大規模なUIデータセットを構築し,検出性能を高めるためのデータ拡張アプローチを提案する。
参考スコア（独自算出の注目度）: 7.614630088064978
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Graphic User Interface (GUI) is facing great demand with the popularization and prosperity of mobile apps. Automatic UI code generation from UI design draft dramatically simplifies the development process. However, the nesting layer structure in the design draft affects the quality and usability of the generated code. Few existing GUI automated techniques detect and group the nested layers to improve the accessibility of generated code. In this paper, we proposed our UI Layers Group Detector as a vision-based method that automatically detects images (i.e., basic shapes and visual elements) and text layers that present the same semantic meanings. We propose two plug-in components, text fusion and box attention, that utilize text information from design drafts as a priori information for group localization. We construct a large-scale UI dataset for training and testing, and present a data augmentation approach to boost the detection performance. The experiment shows that the proposed method achieves a decent accuracy regarding layers grouping.
Abstract（参考訳）: graphic user interface(gui)はモバイルアプリの普及と繁栄で大きな需要に直面している。 UI設計ドラフトからの自動UIコード生成は、開発プロセスを劇的に単純化します。しかし、設計ドラフトのネスティング層構造は、生成されたコードの品質とユーザビリティに影響する。生成されたコードのアクセシビリティを改善するため、ネストしたレイヤを検出してグループ化するGUI自動化技術はほとんどありません。本稿では,画像(基本形状と視覚要素)を自動的に検出するビジョンベース手法として,同じ意味を持つテキスト層として,uiレイヤ群検出器を提案する。グループローカライゼーションのための優先情報として,デザインドラフトからのテキスト情報を利用する2つのプラグインコンポーネント,テキスト融合とボックスアテンションを提案する。トレーニングとテストのための大規模uiデータセットを構築し,検出性能向上のためのデータ拡張手法を提案する。実験の結果,提案手法は層分けの精度が高いことがわかった。

関連論文リスト

Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。 UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-15T22:17:30Z)
Fragmented Layer Grouping in GUI Designs Through Graph Learning Based on Multimodal Information [12.302861965706885]
産業的なGUI-to-codeプロセスでは、断片化されたレイヤによって生成されたコードの可読性と保守性が低下する可能性がある。本研究では,設計プロトタイプのマルチモーダル情報に基づいて,断片化層群問題にグラフ学習に基づくアプローチを提案する。
論文参考訳（メタデータ） (2024-12-07T06:31:09Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文参考訳（メタデータ） (2024-08-27T12:53:25Z)
Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。 Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文参考訳（メタデータ） (2024-06-12T02:43:19Z)
UI Semantic Group Detection: Grouping UI Elements with Similar Semantics in Mobile Graphical User Interface [10.80156450091773]
UI要素のグループ化に関する既存の研究は、主に単一のUI関連ソフトウェアエンジニアリングタスクに焦点を当てており、そのグループは外観と機能が異なる。類似のセマンティクスで隣接したテキストと非テキスト要素をパックするセマンティクスコンポーネントグループを提案する。 UIページ上のセマンティックコンポーネント群を認識するために,我々は,堅牢で深層学習に基づく視覚検出システムであるUISCGDを提案する。
論文参考訳（メタデータ） (2024-03-08T01:52:44Z)
EGFE: End-to-end Grouping of Fragmented Elements in UI Designs with Multimodal Learning [10.885275494978478]
断片化された要素をグループ化することで、生成されたコードの可読性と保守性を大幅に向上させることができる。現在の手法では、フラグメントされた要素をグループ化する手作りのルールを導入する2段階の戦略を採用している。 UIシークエンス予測によるエンドツーエンドのグルーピングフラグメンテッド要素の自動生成手法EGFEを提案する。
論文参考訳（メタデータ） (2023-09-18T15:28:12Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Adaptively Clustering Neighbor Elements for Image-Text Generation [78.82346492527425]
我々はtextbfACF と呼ばれるトランスフォーマーに基づく新しい画像テキスト生成モデルを提案する。 ACFは、視覚パッチをオブジェクト領域と言語単語に適応的にクラスタリングし、暗黙的にオブジェクト・フレーズのアライメントを学習する。実験の結果,ほとんどのSOTAキャプションやVQAモデルよりも優れたACFの有効性が示された。
論文参考訳（メタデータ） (2023-01-05T08:37:36Z)
ULDGNN: A Fragmented UI Layer Detector Based on Graph Neural Networks [7.614630088064978]
断片化されたレイヤは、すべてのレイヤがコード生成に関与している場合、コード全体をマージすることなく、コード品質を劣化させる可能性がある。本稿では,フラグメント層を自動的にマージするパイプラインを提案する。提案手法では,UI設計ドラフトの断片化レイヤの大部分を抽出し,検出タスクにおいて87%の精度を達成できる。
論文参考訳（メタデータ） (2022-08-13T14:14:37Z)
UI Layers Merger: Merging UI layers via Visual Learning and Boundary Prior [7.251022347055101]
フラグメントされたレイヤはUI設計ドラフトに必然的に現れ、コード生成の品質を大幅に低下させます。視覚に基づく手法であるUI Layers Merger(UILM)を提案し、フラグメントされたレイヤを自動的に検出し、UIコンポーネントにマージする。
論文参考訳（メタデータ） (2022-06-18T16:09:28Z)
VINS: Visual Search for Mobile User Interface Design [66.28088601689069]
本稿では、UIイメージを入力として、視覚的に類似したデザイン例を検索するビジュアル検索フレームワークVINSを紹介する。このフレームワークは、平均平均精度76.39%のUI検出を実現し、類似したUI設計をクエリする際の高いパフォーマンスを実現している。
論文参考訳（メタデータ） (2021-02-10T01:46:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。