論文の概要: Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms
- arxiv url: http://arxiv.org/abs/2410.18967v1
- Date: Thu, 24 Oct 2024 17:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:51:47.053945
- Title: Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms
- Title(参考訳): Ferret-UI 2: プラットフォーム全体にわたるユニバーサルユーザインターフェースのマスタリング
- Authors: Zhangheng Li, Keen You, Haotian Zhang, Di Feng, Harsh Agrawal, Xiujun Li, Mohana Prasad Sathya Moorthy, Jeff Nichols, Yinfei Yang, Zhe Gan,
- Abstract要約: Ferret-UI 2 は多言語大言語モデル (MLLM) であり、幅広いプラットフォームでUIを統一的に理解するために設計された。
Ferret-UI 2では、複数のプラットフォームタイプのサポート、適応スケーリングによる高解像度の認識、GPT-4oを使った高度なタスクトレーニングデータ生成、マークのセット・オブ・マークによる視覚的プロンプトの3つの重要なイノベーションが導入されている。
- 参考スコア(独自算出の注目度): 48.00193601902457
- License:
- Abstract: Building a generalist model for user interface (UI) understanding is challenging due to various foundational issues, such as platform diversity, resolution variation, and data limitation. In this paper, we introduce Ferret-UI 2, a multimodal large language model (MLLM) designed for universal UI understanding across a wide range of platforms, including iPhone, Android, iPad, Webpage, and AppleTV. Building on the foundation of Ferret-UI, Ferret-UI 2 introduces three key innovations: support for multiple platform types, high-resolution perception through adaptive scaling, and advanced task training data generation powered by GPT-4o with set-of-mark visual prompting. These advancements enable Ferret-UI 2 to perform complex, user-centered interactions, making it highly versatile and adaptable for the expanding diversity of platform ecosystems. Extensive empirical experiments on referring, grounding, user-centric advanced tasks (comprising 9 subtasks $\times$ 5 platforms), GUIDE next-action prediction dataset, and GUI-World multi-platform benchmark demonstrate that Ferret-UI 2 significantly outperforms Ferret-UI, and also shows strong cross-platform transfer capabilities.
- Abstract(参考訳): ユーザインタフェース(UI)理解のための汎用モデルを構築することは、プラットフォームの多様性、解像度の変化、データ制限など、さまざまな基本的な問題のために難しい。
本稿では,iPhone,Android,iPad,Webページ,AppleTVなど,多言語UI理解のためのマルチモーダル大規模言語モデル(MLLM)であるFerret-UI 2を紹介する。
Ferret-UIの基盤として、Ferret-UI 2では、複数のプラットフォームタイプのサポート、アダプティブスケーリングによる高解像度の認識、GPT-4oを使った高度なタスクトレーニングデータ生成、セット・オブ・マークの視覚的プロンプトの3つの重要なイノベーションが導入されている。
これらの進歩により、Ferret-UI 2は複雑なユーザ中心のインタラクションを実行でき、プラットフォームエコシステムの多様化に非常に多用途で適応できる。
参照、接地、ユーザー中心の高度なタスク(9サブタスク$\times$5プラットフォームを含む)、GUIDEの次のアクション予測データセット、GUI-Worldのマルチプラットフォームベンチマークに関する大規模な実証実験は、Ferret-UI 2がFerret-UIを大幅に上回っており、クロスプラットフォームのトランスファー機能も優れていることを示している。
関連論文リスト
- MobileFlow: A Multimodal LLM For Mobile GUI Agent [4.7619361168442005]
本稿では,モバイルGUIエージェント用のマルチモーダルな大規模言語モデルであるMobileFlowを紹介する。
MobileFlowは約21億のパラメータを含み、新しいハイブリッドビジュアルエンコーダを備えている。
画像データを完全に解釈し、GUIインタラクションタスクのユーザ命令を理解する能力がある。
論文 参考訳(メタデータ) (2024-07-05T08:37:10Z) - LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。
LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。
実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文 参考訳(メタデータ) (2024-04-28T16:50:12Z) - Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models [119.63480600733715]
Ferret-v2は、Feretの大幅なアップグレードで、3つの重要なデザインがある。
フレキシブルなアプローチは、より高い画像解像度を努力的に処理し、より詳細に画像を処理および理解するモデルの能力を改善する。
追加のDINOv2エンコーダを統合することで、グローバルおよびきめ細かい視覚情報に対して、より良く多様な基盤となるコンテキストを学習する。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z) - Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs [44.636020540018194]
モバイルUI画面の理解を深めるためのMLLMであるFeret-UIを提案する。
Ferret-UIはUI画面の優れた理解とオープンエンド命令の実行能力を示す。
Ferret-UIは、ほとんどのオープンソースのUI MLLMを超えるだけでなく、すべての基本的なUIタスクにおいてGPT-4Vを超えている。
論文 参考訳(メタデータ) (2024-04-08T17:55:44Z) - Ferret: Refer and Ground Anything Anywhere at Any Granularity [93.80461625100826]
画像内の任意の形状や粒度の空間参照を理解することができる新しいマルチモーダル大言語モデル(MLLM)であるFeretを紹介する。
フェレットは、画像内の領域を表現するために、離散座標と連続的な特徴を結合した、新しく強力なハイブリッドな領域表現を採用している。
フェレットは、ポイント、バウンディングボックス、自由形式の形状など、多様な領域入力を受け入れることができる。
論文 参考訳(メタデータ) (2023-10-11T17:55:15Z) - WrapperFL: A Model Agnostic Plug-in for Industrial Federated Learning [10.909577776094782]
本稿では,WrapperFLと呼ばれるアンサンブル学習にインスパイアされた,シンプルながら実用的なフェデレーション学習プラグインを提案する。
WrapperFLは、既存のモデルの入力および出力インターフェースに、再開発を必要とせずに簡単にアタッチすることで、プラグイン・アンド・プレイ方式で動作する。
論文 参考訳(メタデータ) (2022-06-21T13:59:11Z) - Game of Privacy: Towards Better Federated Platform Collaboration under
Privacy Restriction [95.12382372267724]
Vertical Federated Learning (VFL)は、異なるプラットフォームに格納された異なる機能空間を持つクロスサイロデータからモデルをトレーニングすることを目的としている。
フェデレーション学習の固有のプライバシーリスクのため、関連するデータの総量は制限される可能性がある。
我々は、VFLフレームワークのマルチプラットフォーム情報を活用して、各プラットフォームが自身のタスクに役立てることができるような、相互協力を通じて、異なるプラットフォームをインセンティブにすることを提案する。
論文 参考訳(メタデータ) (2022-02-10T16:45:40Z) - ActionBert: Leveraging User Actions for Semantic Understanding of User
Interfaces [12.52699475631247]
ActionBertと呼ばれる新しいトレーニング済みのUI表現モデルを紹介します。
本手法は,ユーザインタラクショントレースにおける視覚的,言語的,ドメイン特有の特徴を活用し,uiとそのコンポーネントの汎用的な特徴表現を事前学習するように設計されている。
実験により、提案するactionbertモデルは、下流タスク全体のマルチモーダルベースラインを最大15.5%上回ることがわかった。
論文 参考訳(メタデータ) (2020-12-22T20:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。