論文の概要: Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms
- arxiv url: http://arxiv.org/abs/2410.18967v1
- Date: Thu, 24 Oct 2024 17:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:51:47.053945
- Title: Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms
- Title(参考訳): Ferret-UI 2: プラットフォーム全体にわたるユニバーサルユーザインターフェースのマスタリング
- Authors: Zhangheng Li, Keen You, Haotian Zhang, Di Feng, Harsh Agrawal, Xiujun Li, Mohana Prasad Sathya Moorthy, Jeff Nichols, Yinfei Yang, Zhe Gan,
- Abstract要約: Ferret-UI 2 は多言語大言語モデル (MLLM) であり、幅広いプラットフォームでUIを統一的に理解するために設計された。
Ferret-UI 2では、複数のプラットフォームタイプのサポート、適応スケーリングによる高解像度の認識、GPT-4oを使った高度なタスクトレーニングデータ生成、マークのセット・オブ・マークによる視覚的プロンプトの3つの重要なイノベーションが導入されている。
- 参考スコア(独自算出の注目度): 48.00193601902457
- License:
- Abstract: Building a generalist model for user interface (UI) understanding is challenging due to various foundational issues, such as platform diversity, resolution variation, and data limitation. In this paper, we introduce Ferret-UI 2, a multimodal large language model (MLLM) designed for universal UI understanding across a wide range of platforms, including iPhone, Android, iPad, Webpage, and AppleTV. Building on the foundation of Ferret-UI, Ferret-UI 2 introduces three key innovations: support for multiple platform types, high-resolution perception through adaptive scaling, and advanced task training data generation powered by GPT-4o with set-of-mark visual prompting. These advancements enable Ferret-UI 2 to perform complex, user-centered interactions, making it highly versatile and adaptable for the expanding diversity of platform ecosystems. Extensive empirical experiments on referring, grounding, user-centric advanced tasks (comprising 9 subtasks $\times$ 5 platforms), GUIDE next-action prediction dataset, and GUI-World multi-platform benchmark demonstrate that Ferret-UI 2 significantly outperforms Ferret-UI, and also shows strong cross-platform transfer capabilities.
- Abstract(参考訳): ユーザインタフェース(UI)理解のための汎用モデルを構築することは、プラットフォームの多様性、解像度の変化、データ制限など、さまざまな基本的な問題のために難しい。
本稿では,iPhone,Android,iPad,Webページ,AppleTVなど,多言語UI理解のためのマルチモーダル大規模言語モデル(MLLM)であるFerret-UI 2を紹介する。
Ferret-UIの基盤として、Ferret-UI 2では、複数のプラットフォームタイプのサポート、アダプティブスケーリングによる高解像度の認識、GPT-4oを使った高度なタスクトレーニングデータ生成、セット・オブ・マークの視覚的プロンプトの3つの重要なイノベーションが導入されている。
これらの進歩により、Ferret-UI 2は複雑なユーザ中心のインタラクションを実行でき、プラットフォームエコシステムの多様化に非常に多用途で適応できる。
参照、接地、ユーザー中心の高度なタスク(9サブタスク$\times$5プラットフォームを含む)、GUIDEの次のアクション予測データセット、GUI-Worldのマルチプラットフォームベンチマークに関する大規模な実証実験は、Ferret-UI 2がFerret-UIを大幅に上回っており、クロスプラットフォームのトランスファー機能も優れていることを示している。
関連論文リスト
- UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - MobileFlow: A Multimodal LLM For Mobile GUI Agent [4.7619361168442005]
本稿では,モバイルGUIエージェント用のマルチモーダルな大規模言語モデルであるMobileFlowを紹介する。
MobileFlowは約21億のパラメータを含み、新しいハイブリッドビジュアルエンコーダを備えている。
画像データを完全に解釈し、GUIインタラクションタスクのユーザ命令を理解する能力がある。
論文 参考訳(メタデータ) (2024-07-05T08:37:10Z) - Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models [119.63480600733715]
Ferret-v2は、Feretの大幅なアップグレードで、3つの重要なデザインがある。
フレキシブルなアプローチは、より高い画像解像度を努力的に処理し、より詳細に画像を処理および理解するモデルの能力を改善する。
追加のDINOv2エンコーダを統合することで、グローバルおよびきめ細かい視覚情報に対して、より良く多様な基盤となるコンテキストを学習する。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z) - Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs [44.636020540018194]
モバイルUI画面の理解を深めるためのMLLMであるFeret-UIを提案する。
Ferret-UIはUI画面の優れた理解とオープンエンド命令の実行能力を示す。
Ferret-UIは、ほとんどのオープンソースのUI MLLMを超えるだけでなく、すべての基本的なUIタスクにおいてGPT-4Vを超えている。
論文 参考訳(メタデータ) (2024-04-08T17:55:44Z) - Game of Privacy: Towards Better Federated Platform Collaboration under
Privacy Restriction [95.12382372267724]
Vertical Federated Learning (VFL)は、異なるプラットフォームに格納された異なる機能空間を持つクロスサイロデータからモデルをトレーニングすることを目的としている。
フェデレーション学習の固有のプライバシーリスクのため、関連するデータの総量は制限される可能性がある。
我々は、VFLフレームワークのマルチプラットフォーム情報を活用して、各プラットフォームが自身のタスクに役立てることができるような、相互協力を通じて、異なるプラットフォームをインセンティブにすることを提案する。
論文 参考訳(メタデータ) (2022-02-10T16:45:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。