Fugu-MT 論文翻訳(概要): AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs

論文の概要: AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs

arxiv url: http://arxiv.org/abs/2502.01977v2
Date: Sat, 07 Jun 2025 05:23:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 21:10:46.866779
Title: AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs
Title（参考訳）: AutoGUI: LLMからの自動機能アノテーションによるGUIグラウンディングのスケーリング
Authors: Hongxin Li, Jingfan Chen, Jingran Su, Yuntao Chen, Qing Li, Zhaoxiang Zhang,
Abstract要約: そこで本稿では,UI要素に詳細な機能記述を自動アノテートする textbfAutoGUI パイプラインを提案する。提案したパイプラインを用いて高品質なAutoGUI-704kデータセットを構築し,多種多様な機能アノテーションを特徴とする。我々のデータセットは、VLMのUIグラウンド機能を大幅に強化し、大きなスケーリング効果を示す。
参考スコア（独自算出の注目度）: 54.58905728115257
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: User interface understanding with vision-language models (VLMs) has received much attention due to its potential for enhancing software automation. However, existing datasets used to build UI-VLMs either only contain large-scale context-free element annotations or contextualized functional descriptions for elements at a small scale. In this work, we propose the \textbf{AutoGUI} pipeline for automatically annotating UI elements with detailed functionality descriptions at scale. Specifically, we leverage large language models (LLMs) to infer element functionality by comparing UI state changes before and after simulated interactions. To improve annotation quality, we propose LLM-aided rejection and verification, eliminating invalid annotations without human labor. We construct a high-quality AutoGUI-704k dataset using the proposed pipeline, featuring diverse and detailed functionality annotations that are hardly provided by previous datasets. Human evaluation shows that we achieve annotation correctness comparable to a trained human annotator. Extensive experiments show that our dataset remarkably enhances VLM's UI grounding capabilities and exhibits significant scaling effects. We also show the interesting potential use of our dataset in UI agent tasks. Please view our project at https://autogui-project.github.io/.
Abstract（参考訳）: 視覚言語モデル(VLM)によるユーザインターフェースの理解は、ソフトウェア自動化の強化の可能性から、多くの注目を集めている。しかし、UI-VLMを構築するために使われる既存のデータセットには、大規模にコンテキストのない要素アノテーションや、小規模で要素のコンテキスト化された関数記述しか含まれていない。そこで本研究では,UI要素に詳細な機能記述を付加し,自動的にアノテートする‘textbf{AutoGUI} パイプラインを提案する。具体的には、大言語モデル(LLM)を利用して、UIの状態変化とシミュレーション後のインタラクションを比較して要素機能を推測する。アノテーションの品質を向上させるため,LLM支援の拒絶と検証を提案し,人的負担を伴わずに無効なアノテーションを排除した。提案したパイプラインを用いて高品質なAutoGUI-704kデータセットを構築し,従来のデータセットでは提供されない多種多様な機能アノテーションを特徴とする。人間の評価は、訓練された人間のアノテーションに匹敵するアノテーションの正当性を達成していることを示している。大規模な実験により、我々のデータセットはVLMのUIグラウンド機能を大幅に向上し、スケーリング効果が顕著であることが示された。また、UIエージェントタスクにおけるデータセットの興味深い使用の可能性も示しています。当社のプロジェクトについては、https://autogui-project.github.io/で確認してください。

関連論文リスト

PixelWeb: The First Web GUI Dataset with Pixel-Wise Labels [2.459600735147166]
我々は,10000以上の注釈付きWebページを含む大規模グラフィカルユーザインタフェース(GUI)データセットであるPixelWebを紹介した。 PixelWebは、視覚的特徴抽出とドキュメントオブジェクトモデル(DOM)構造解析を統合した、新しい自動アノテーションアプローチを使用して構築されている。テストによると、PixelWebは既存のデータセットの3～7倍のmAP95メトリックのパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-04-23T05:01:25Z)
UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文参考訳（メタデータ） (2025-01-21T17:48:10Z)
Falcon-UI: Understanding GUI Before Following User Instructions [57.67308498231232]
インテリジェンスフリーなGUIナビゲーションデータセットであるInsight-UIデータセットを導入し、GUI環境のモデル理解を強化する。 Insight-UIデータセットはCommon Crawlコーパスから自動的に生成され、さまざまなプラットフォームをシミュレートする。我々は、最初Insight-UIデータセットで事前訓練され、その後AndroidおよびWeb GUIデータセットで微調整されたGUIエージェントモデルFalcon-UIを開発した。
論文参考訳（メタデータ） (2024-12-12T15:29:36Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文参考訳（メタデータ） (2024-06-16T06:56:53Z)
Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。 Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文参考訳（メタデータ） (2024-06-12T02:43:19Z)
ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations [13.939350184164017]
VLM(Multimodal Vision-Language Models)は、画像と言語を融合した理解から強力なアプリケーションを可能にする。既存のピクセルベース手法とLarge Language Model(LLM)を組み合わせることで、VLMのペアテキストイメージトレーニングデータを生成するためのレシピをUIドメインに適用する。我々は、Q&A、UI記述、計画をカバーするUIと組み合わせた335Kの会話例のデータセットを生成し、UIタスクのための会話VLMを微調整するためにそれを使用します。
論文参考訳（メタデータ） (2023-10-07T16:32:34Z)
Towards Better Semantic Understanding of Mobile Interfaces [7.756895821262432]
UI要素の機能の理解を深めることを目的とした,約500万のユニークなアノテーションを備えた,人間アノテーション付きデータセットをリリースしています。このデータセットは、モバイルUIの大規模なデータセットであるRICOのイメージとビュー階層を拡張している。また、画像のみの入力とマルチモーダル入力を用いたモデルもリリースし、様々なアーキテクチャを実験し、新しいデータセットでマルチモーダル入力を使用することの利点について検討する。
論文参考訳（メタデータ） (2022-10-06T03:48:54Z)
UIBert: Learning Generic Multimodal Representations for UI Understanding [12.931540149350633]
大規模な未ラベルUIデータに対する新しい事前学習タスクによって訓練されたトランスフォーマーベースの共同画像テキストモデルを提案する。私たちの重要な直感は、UIの異種機能は自己整合である、つまり、UIコンポーネントのイメージとテキスト機能は、相互に予測可能である、ということです。この自己アライメントを利用した5つの事前学習タスクを提案する。 UIBertは、最大9.26%の精度で強力なマルチモーダルベースラインを上回ります。
論文参考訳（メタデータ） (2021-07-29T03:51:36Z)
ActionBert: Leveraging User Actions for Semantic Understanding of User Interfaces [12.52699475631247]
ActionBertと呼ばれる新しいトレーニング済みのUI表現モデルを紹介します。本手法は,ユーザインタラクショントレースにおける視覚的,言語的,ドメイン特有の特徴を活用し,uiとそのコンポーネントの汎用的な特徴表現を事前学習するように設計されている。実験により、提案するactionbertモデルは、下流タスク全体のマルチモーダルベースラインを最大15.5%上回ることがわかった。
論文参考訳（メタデータ） (2020-12-22T20:49:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。