Fugu-MT 論文翻訳(概要): Spotlight: Mobile UI Understanding using Vision-Language Models with a Focus

論文の概要: Spotlight: Mobile UI Understanding using Vision-Language Models with a Focus

arxiv url: http://arxiv.org/abs/2209.14927v1
Date: Thu, 29 Sep 2022 16:45:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-30 16:52:41.623538
Title: Spotlight: Mobile UI Understanding using Vision-Language Models with a Focus
Title（参考訳）: spotlight:フォーカスによる視覚言語モデルによるモバイルui理解
Authors: Gang Li, Yang Li
Abstract要約: 本稿では,UIのスクリーンショットと画面上の関心領域のみを入力とする視覚言語モデルを提案する。実験の結果,本モデルではいくつかのUIタスクにおいてSoTA結果が得られ,従来手法よりも優れていたことが判明した。
参考スコア（独自算出の注目度）: 9.401663915424008
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mobile UI understanding is important for enabling various interaction tasks such as UI automation and accessibility. Previous mobile UI modeling often depends on the view hierarchy information of a screen, which directly provides the structural data of the UI, with the hope to bypass challenging tasks of visual modeling from screen pixels. However, view hierarchy is not always available, and is often corrupted with missing object descriptions or misaligned bounding box positions. As a result, although using view hierarchy offers some short-term gains, it may ultimately hinder the applicability and performance of the model. In this paper, we propose Spotlight, a vision-only approach for mobile UI understanding. Specifically, we enhance a vision-language model that only takes the screenshot of the UI and a region of interest on the screen -- the focus -- as the input. This general architecture is easily scalable and capable of performing a range of UI modeling tasks. Our experiments show that our model obtains SoTA results on several representative UI tasks and outperforms previous methods that use both screenshots and view hierarchies as input. Furthermore, we explore the multi-task learning and few-shot prompting capacity of the proposed models, demonstrating promising results in the multi-task learning direction.
Abstract（参考訳）: モバイルUI理解は、UI自動化やアクセシビリティといったさまざまなインタラクションタスクを実現する上で重要である。以前のモバイルuiモデリングは、画面のビュー階層情報に依存しており、uiの構造データを直接提供し、画面ピクセルからのビジュアルモデリングの課題を回避できることを期待している。しかし、ビュー階層は必ずしも利用できないため、オブジェクト記述の欠如やバウンディングボックスの位置の不一致によってしばしば破損する。その結果、ビュー階層の使用は短期的な利益をもたらすが、最終的にはモデルの適用性と性能を妨げる可能性がある。本稿では,モバイルUI理解のための視覚のみのアプローチであるSpotlightを提案する。具体的には、uiのスクリーンショットと、画面上の関心領域(フォーカス)のみを入力として使用する、ビジョン言語モデルを拡張します。この一般的なアーキテクチャはスケーラブルで、様々なUIモデリングタスクを実行することができる。実験の結果,いくつかの代表的なuiタスクのsoma結果を取得し,スクリーンショットと階層ビューの両方を入力として使用する従来のメソッドよりも優れていた。さらに,提案モデルのマルチタスク学習と数ショットプロンプト能力について検討し,マルチタスク学習の方向性において有望な結果を示す。

関連論文リスト

Leveraging Multimodal LLM for Inspirational User Interface Search [12.470067381902972]
既存のAIベースのUI検索メソッドは、ターゲットユーザやアプリのムードといった重要なセマンティクスを見逃すことが多い。我々はマルチモーダルな大言語モデル(MLLM)を用いて,モバイルUI画像から意味を抽出し,解釈した。われわれのアプローチは既存のUI検索方法よりも優れており、UIデザイナはよりリッチでコンテキストに関連のある検索体験を提供する。
論文参考訳（メタデータ） (2025-01-29T17:38:39Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。 Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文参考訳（メタデータ） (2024-06-12T02:43:19Z)
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs [44.636020540018194]
モバイルUI画面の理解を深めるためのMLLMであるFeret-UIを提案する。 Ferret-UIはUI画面の優れた理解とオープンエンド命令の実行能力を示す。 Ferret-UIは、ほとんどのオープンソースのUI MLLMを超えるだけでなく、すべての基本的なUIタスクにおいてGPT-4Vを超えている。
論文参考訳（メタデータ） (2024-04-08T17:55:44Z)
MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文参考訳（メタデータ） (2023-10-14T03:22:07Z)
ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations [13.939350184164017]
VLM(Multimodal Vision-Language Models)は、画像と言語を融合した理解から強力なアプリケーションを可能にする。既存のピクセルベース手法とLarge Language Model(LLM)を組み合わせることで、VLMのペアテキストイメージトレーニングデータを生成するためのレシピをUIドメインに適用する。我々は、Q&A、UI記述、計画をカバーするUIと組み合わせた335Kの会話例のデータセットを生成し、UIタスクのための会話VLMを微調整するためにそれを使用します。
論文参考訳（メタデータ） (2023-10-07T16:32:34Z)
Towards Better Semantic Understanding of Mobile Interfaces [7.756895821262432]
UI要素の機能の理解を深めることを目的とした,約500万のユニークなアノテーションを備えた,人間アノテーション付きデータセットをリリースしています。このデータセットは、モバイルUIの大規模なデータセットであるRICOのイメージとビュー階層を拡張している。また、画像のみの入力とマルチモーダル入力を用いたモデルもリリースし、様々なアーキテクチャを実験し、新しいデータセットでマルチモーダル入力を使用することの利点について検討する。
論文参考訳（メタデータ） (2022-10-06T03:48:54Z)
Zero Experience Required: Plug & Play Modular Transfer Learning for Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文参考訳（メタデータ） (2022-02-05T00:07:21Z)
Multimodal Icon Annotation For Mobile Applications [11.342641993269693]
本稿では、画素とビュー階層の利点を組み合わせた、新しいディープラーニングに基づくマルチモーダルアプローチを提案する。リコで最もよく使われている29個のアイコンを手動でアノテートすることで、提供されたユーティリティを示すために、高品質なUIデータセットを作成します。
論文参考訳（メタデータ） (2021-07-09T13:57:37Z)
VINS: Visual Search for Mobile User Interface Design [66.28088601689069]
本稿では、UIイメージを入力として、視覚的に類似したデザイン例を検索するビジュアル検索フレームワークVINSを紹介する。このフレームワークは、平均平均精度76.39%のUI検出を実現し、類似したUI設計をクエリする際の高いパフォーマンスを実現している。
論文参考訳（メタデータ） (2021-02-10T01:46:33Z)
Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文参考訳（メタデータ） (2021-02-04T17:59:30Z)
ActionBert: Leveraging User Actions for Semantic Understanding of User Interfaces [12.52699475631247]
ActionBertと呼ばれる新しいトレーニング済みのUI表現モデルを紹介します。本手法は,ユーザインタラクショントレースにおける視覚的,言語的,ドメイン特有の特徴を活用し,uiとそのコンポーネントの汎用的な特徴表現を事前学習するように設計されている。実験により、提案するactionbertモデルは、下流タスク全体のマルチモーダルベースラインを最大15.5%上回ることがわかった。
論文参考訳（メタデータ） (2020-12-22T20:49:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。