論文の概要: PixelWeb: The First Web GUI Dataset with Pixel-Wise Labels
- arxiv url: http://arxiv.org/abs/2504.16419v2
- Date: Sun, 27 Apr 2025 06:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.002385
- Title: PixelWeb: The First Web GUI Dataset with Pixel-Wise Labels
- Title(参考訳): PixelWeb:Pixel-Wiseラベルによる最初のWeb GUIデータセット
- Authors: Qi Yang, Weichen Bi, Haiyang Shen, Yaoqi Guo, Yun Ma,
- Abstract要約: 我々は,10000以上の注釈付きWebページを含む大規模グラフィカルユーザインタフェース(GUI)データセットであるPixelWebを紹介した。
PixelWebは、視覚的特徴抽出とドキュメントオブジェクトモデル(DOM)構造解析を統合した、新しい自動アノテーションアプローチを使用して構築されている。
テストによると、PixelWebは既存のデータセットの3~7倍のmAP95メトリックのパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 2.459600735147166
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Graphical User Interface (GUI) datasets are crucial for various downstream tasks. However, GUI datasets often generate annotation information through automatic labeling, which commonly results in inaccurate GUI element BBox annotations, including missing, duplicate, or meaningless BBoxes. These issues can degrade the performance of models trained on these datasets, limiting their effectiveness in real-world applications. Additionally, existing GUI datasets only provide BBox annotations visually, which restricts the development of visually related GUI downstream tasks. To address these issues, we introduce PixelWeb, a large-scale GUI dataset containing over 100,000 annotated web pages. PixelWeb is constructed using a novel automatic annotation approach that integrates visual feature extraction and Document Object Model (DOM) structure analysis through two core modules: channel derivation and layer analysis. Channel derivation ensures accurate localization of GUI elements in cases of occlusion and overlapping elements by extracting BGRA four-channel bitmap annotations. Layer analysis uses the DOM to determine the visibility and stacking order of elements, providing precise BBox annotations. Additionally, PixelWeb includes comprehensive metadata such as element images, contours, and mask annotations. Manual verification by three independent annotators confirms the high quality and accuracy of PixelWeb annotations. Experimental results on GUI element detection tasks show that PixelWeb achieves performance on the mAP95 metric that is 3-7 times better than existing datasets. We believe that PixelWeb has great potential for performance improvement in downstream tasks such as GUI generation and automated user interaction.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)データセットは、さまざまな下流タスクに不可欠である。
しかし、GUIデータセットは自動ラベリングを通じてアノテーション情報を生成することが多く、一般的には欠落、重複、意味のないBBoxアノテーションを含む不正確なGUI要素BBoxアノテーションをもたらす。
これらの問題は、これらのデータセットでトレーニングされたモデルのパフォーマンスを低下させ、実際のアプリケーションでの有効性を制限することができる。
加えて、既存のGUIデータセットは、視覚的にのみBBoxアノテーションを提供しており、視覚的に関連するGUI下流タスクの開発を制限する。
これらの問題に対処するために,10000以上の注釈付きWebページを含む大規模GUIデータセットであるPixelWebを紹介した。
PixelWebは、視覚的特徴抽出とドキュメントオブジェクトモデル(DOM)構造解析を、チャネル導出と層解析という2つのコアモジュールを通じて統合する、新しい自動アノテーションアプローチを使用して構築されている。
チャネル導出は、BGRA4チャンネルビットマップアノテーションを抽出することにより、閉塞および重複要素のGUI要素の正確な位置決めを保証する。
レイヤ分析はDOMを使用して要素の可視性と積み重ねの順序を決定し、正確なBBoxアノテーションを提供する。
さらに、PixelWebには要素画像、輪郭、マスクアノテーションなどの包括的なメタデータが含まれている。
3つの独立したアノテーションによる手動検証は、PixelWebアノテーションの高品質と正確性を確認する。
GUI要素検出タスクの実験結果は、PixelWebが既存のデータセットの3~7倍のmAP95メトリックのパフォーマンスを達成することを示している。
私たちは、PixelWebはGUI生成や自動ユーザインタラクションといった下流タスクのパフォーマンス改善に大きな可能性を秘めていると考えています。
関連論文リスト
- AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs [54.58905728115257]
本稿では,UI要素を自動的に注釈付けするためのメソッド名パイプラインを提案する。
具体的には、大きな言語モデル(LLM)を利用して、特定のUI要素との対話の前後のUI内容の変化を比較して要素機能を推測する。
提案したパイプラインを用いて,マルチレゾリューション,マルチデバイススクリーンショット,多様なデータドメイン,以前のデータセットで提供されていない詳細な機能アノテーションを特徴とするメソッドネーム704kデータセットを構築した。
論文 参考訳(メタデータ) (2025-02-04T03:39:59Z) - Falcon-UI: Understanding GUI Before Following User Instructions [57.67308498231232]
インテリジェンスフリーなGUIナビゲーションデータセットであるInsight-UIデータセットを導入し、GUI環境のモデル理解を強化する。
Insight-UIデータセットはCommon Crawlコーパスから自動的に生成され、さまざまなプラットフォームをシミュレートする。
我々は、最初Insight-UIデータセットで事前訓練され、その後AndroidおよびWeb GUIデータセットで微調整されたGUIエージェントモデルFalcon-UIを開発した。
論文 参考訳(メタデータ) (2024-12-12T15:29:36Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,画像LLMやビデオLLMなどの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2024-06-14T17:59:08Z) - Graph4GUI: Graph Neural Networks for Representing Graphical User Interfaces [27.84098739594353]
Graph4GUIはグラフニューラルネットワークを利用して、個々の要素の特性とセマンティックな空間的制約をレイアウトでキャプチャする。
学習された表現は、その効果を複数のタスクで示し、特に挑戦的なGUIオートコンプリートタスクで設計を生成する。
論文 参考訳(メタデータ) (2024-04-21T04:06:09Z) - Understanding Mobile GUI: from Pixel-Words to Screen-Sentences [48.97215653702567]
モバイルGUI理解アーキテクチャを提案する:Pixel-Words to Screen-Sentence (PW2SS)
Pixel-Wordsはアトミックビジュアルコンポーネントとして定義されており、スクリーンショット全体で視覚的に一貫性があり、セマンティックにクリアである。
トレーニングデータで利用可能なメタデータを使って、Pixel-Wordsの高品質なアノテーションを自動生成できます。
論文 参考訳(メタデータ) (2021-05-25T13:45:54Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。