論文の概要: Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2404.05719v1
- Date: Mon, 8 Apr 2024 17:55:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 13:26:22.812334
- Title: Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
- Title(参考訳): Ferret-UI:マルチモーダルLLMによるモバイルUI理解
- Authors: Keen You, Haotian Zhang, Eldon Schoop, Floris Weers, Amanda Swearngin, Jeffrey Nichols, Yinfei Yang, Zhe Gan,
- Abstract要約: モバイルUI画面の理解を深めるためのMLLMであるFeret-UIを提案する。
Ferret-UIはUI画面の優れた理解とオープンエンド命令の実行能力を示す。
Ferret-UIは、ほとんどのオープンソースのUI MLLMを超えるだけでなく、すべての基本的なUIタスクにおいてGPT-4Vを超えている。
- 参考スコア(独自算出の注目度): 44.636020540018194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in multimodal large language models (MLLMs) have been noteworthy, yet, these general-domain MLLMs often fall short in their ability to comprehend and interact effectively with user interface (UI) screens. In this paper, we present Ferret-UI, a new MLLM tailored for enhanced understanding of mobile UI screens, equipped with referring, grounding, and reasoning capabilities. Given that UI screens typically exhibit a more elongated aspect ratio and contain smaller objects of interest (e.g., icons, texts) than natural images, we incorporate "any resolution" on top of Ferret to magnify details and leverage enhanced visual features. Specifically, each screen is divided into 2 sub-images based on the original aspect ratio (i.e., horizontal division for portrait screens and vertical division for landscape screens). Both sub-images are encoded separately before being sent to LLMs. We meticulously gather training samples from an extensive range of elementary UI tasks, such as icon recognition, find text, and widget listing. These samples are formatted for instruction-following with region annotations to facilitate precise referring and grounding. To augment the model's reasoning ability, we further compile a dataset for advanced tasks, including detailed description, perception/interaction conversations, and function inference. After training on the curated datasets, Ferret-UI exhibits outstanding comprehension of UI screens and the capability to execute open-ended instructions. For model evaluation, we establish a comprehensive benchmark encompassing all the aforementioned tasks. Ferret-UI excels not only beyond most open-source UI MLLMs, but also surpasses GPT-4V on all the elementary UI tasks.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の最近の進歩は注目に値するが、これらの汎用MLLMはユーザインタフェース(UI)スクリーンを効果的に理解・操作する能力に欠けることが多い。
本稿では,モバイルUI画面の理解を深め,参照,接地,推論機能を備えた新しいMLLMであるFerret-UIを提案する。
UI画面は、通常、より長いアスペクト比を示し、自然画像よりも興味の対象(アイコン、テキストなど)が小さいことを考えると、フェレットの上に「あらゆる解像度」を組み込んで詳細を拡大し、拡張された視覚的特徴を活用する。
具体的には、元のアスペクト比(ポートレートスクリーンの水平分割とランドスケープスクリーンの垂直分割)に基づいて、各画面を2つのサブイメージに分割する。
両方のサブイメージはLDMに送られる前に別々にエンコードされる。
アイコン認識,テキスト検索,ウィジェットリスティングなど,さまざまな基本UIタスクのトレーニングサンプルを慎重に収集する。
これらのサンプルは、正確な参照とグラウンド化を容易にするために、リージョンアノテーションによる命令フォロー用にフォーマットされている。
モデルの推論能力を高めるために、詳細な説明、知覚/相互作用の会話、関数推論を含む高度なタスクのためのデータセットをさらにコンパイルする。
キュレートされたデータセットのトレーニングの後、Feret-UIはUI画面の優れた理解とオープンエンド命令の実行能力を示す。
モデル評価では、上記の課題をすべて包含する総合的なベンチマークを確立する。
Ferret-UIは、ほとんどのオープンソースのUI MLLMを超えるだけでなく、すべての基本的なUIタスクにおいてGPT-4Vを超えている。
関連論文リスト
- Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms [48.00193601902457]
Ferret-UI 2 は多言語大言語モデル (MLLM) であり、幅広いプラットフォームでUIを統一的に理解するために設計された。
Ferret-UI 2では、複数のプラットフォームタイプのサポート、適応スケーリングによる高解像度の認識、GPT-4oを使った高度なタスクトレーニングデータ生成、マークのセット・オブ・マークによる視覚的プロンプトの3つの重要なイノベーションが導入されている。
論文 参考訳(メタデータ) (2024-10-24T17:58:31Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine
Conversations [13.939350184164017]
VLM(Multimodal Vision-Language Models)は、画像と言語を融合した理解から強力なアプリケーションを可能にする。
既存のピクセルベース手法とLarge Language Model(LLM)を組み合わせることで、VLMのペアテキストイメージトレーニングデータを生成するためのレシピをUIドメインに適用する。
我々は、Q&A、UI記述、計画をカバーするUIと組み合わせた335Kの会話例のデータセットを生成し、UIタスクのための会話VLMを微調整するためにそれを使用します。
論文 参考訳(メタデータ) (2023-10-07T16:32:34Z) - Reinforced UI Instruction Grounding: Towards a Generic UI Task
Automation API [17.991044940694778]
汎用的なUIタスク自動化エグゼキュータとして、与えられたUIスクリーンショットに自然言語命令をベースとしたマルチモーダルモデルを構築します。
画像からテキストまでの事前学習知識の活用を容易にするため,画素からシーケンスまでのパラダイムを踏襲する。
提案する強化UI命令グラウンドモデルでは,最先端の手法よりも明確なマージンで性能が向上する。
論文 参考訳(メタデータ) (2023-10-07T07:22:41Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Spotlight: Mobile UI Understanding using Vision-Language Models with a
Focus [9.401663915424008]
本稿では,UIのスクリーンショットと画面上の関心領域のみを入力とする視覚言語モデルを提案する。
実験の結果,本モデルではいくつかのUIタスクにおいてSoTA結果が得られ,従来手法よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2022-09-29T16:45:43Z) - Multimodal Icon Annotation For Mobile Applications [11.342641993269693]
本稿では、画素とビュー階層の利点を組み合わせた、新しいディープラーニングに基づくマルチモーダルアプローチを提案する。
リコで最もよく使われている29個のアイコンを手動でアノテートすることで、提供されたユーティリティを示すために、高品質なUIデータセットを作成します。
論文 参考訳(メタデータ) (2021-07-09T13:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。