論文の概要: Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents
- arxiv url: http://arxiv.org/abs/2509.26539v1
- Date: Tue, 30 Sep 2025 17:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.632163
- Title: Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents
- Title(参考訳): Ferret-UI Lite:小さなオンデバイスGUIエージェントの構築から学んだこと
- Authors: Zhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan,
- Abstract要約: Ferret-UI Liteは、様々なプラットフォームで動作する、コンパクトでエンドツーエンドのGUIエージェントである。
Ferret-UI Liteは、他の小規模GUIエージェントとの競合性能を達成する。
- 参考スコア(独自算出の注目度): 79.81903177553684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing autonomous agents that effectively interact with Graphic User Interfaces (GUIs) remains a challenging open problem, especially for small on-device models. In this paper, we present Ferret-UI Lite, a compact, end-to-end GUI agent that operates across diverse platforms, including mobile, web, and desktop. Utilizing techniques optimized for developing small models, we build our 3B Ferret-UI Lite agent through curating a diverse GUI data mixture from real and synthetic sources, strengthening inference-time performance through chain-of-thought reasoning and visual tool-use, and reinforcement learning with designed rewards. Ferret-UI Lite achieves competitive performance with other small-scale GUI agents. In GUI grounding, Ferret-UI Lite attains scores of $91.6\%$, $53.3\%$, and $61.2\%$ on the ScreenSpot-V2, ScreenSpot-Pro, and OSWorld-G benchmarks, respectively. For GUI navigation, Ferret-UI Lite achieves success rates of $28.0\%$ on AndroidWorld and $19.8\%$ on OSWorld. We share our methods and lessons learned from developing compact, on-device GUI agents.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)と効果的に対話する自律エージェントの開発は、特に小さなオンデバイスモデルにおいて、難しいオープンな問題である。
本稿では,モバイル,Web,デスクトップなど多種多様なプラットフォームで動作する,コンパクトでエンドツーエンドのGUIエージェントであるFerret-UI Liteを提案する。
小型モデルの開発に最適化された技術を活用し,実データと合成データからGUIデータを混合した3B Ferret-UI Liteエージェントの構築,チェーン・オブ・ソート推論とビジュアルツール利用による推論時間性能の向上,設計した報酬による強化学習などを行った。
Ferret-UI Liteは、他の小規模GUIエージェントとの競合性能を達成する。
GUIグラウンディングでは、Feret-UI Liteは、それぞれScreenSpot-V2、ScreenSpot-Pro、OSWorld-Gベンチマークで91.6\%、53.3\%、および61.2\%のスコアを得る。
GUIナビゲーションでは、Feret-UI LiteはAndroidWorldで28.0.%、OSWorldで19.8.%という成功率を達成した。
私たちは、コンパクトでオンデバイスなGUIエージェントの開発から学んだ方法と教訓を共有します。
関連論文リスト
- Mobile-Agent-v3: Fundamental Agents for GUI Automation [59.775510710011325]
本稿では,オープンソースエンド・ツー・エンド・モデル間の最先端性能を実現する基礎的なGUIエージェントモデルを提案する。
汎用GUIエージェントフレームワークであるMobile-Agent-v3を提案し,AndroidWorldでは73.3,OSWorldでは37.7に向上した。
論文 参考訳(メタデータ) (2025-08-21T00:39:12Z) - ZeroGUI: Automating Online GUI Learning at Zero Human Cost [75.21128388931945]
我々は、ZeroGUIを提案する。ZeroGUIは、Zeroの人的コストでGUIエージェントのトレーニングを自動化する、スケーラブルでオンライン学習フレームワークである。
具体的には、(i)VLMベースの自動タスク生成を統合して、現在の環境状態から多様なトレーニング目標を生成するとともに、(ii)手作り評価機能なしでタスク成功を評価するためのVLMベースの自動報酬推定と、(iii)GUI環境と継続的に対話し学習するための2段階オンライン強化学習を統合する。
論文 参考訳(メタデータ) (2025-05-29T17:59:51Z) - Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms [48.00193601902457]
Ferret-UI 2 は多言語大言語モデル (MLLM) であり、幅広いプラットフォームでUIを統一的に理解するために設計された。
Ferret-UI 2では、複数のプラットフォームタイプのサポート、適応スケーリングによる高解像度の認識、GPT-4oを使った高度なタスクトレーニングデータ生成、マークのセット・オブ・マークによる視覚的プロンプトの3つの重要なイノベーションが導入されている。
論文 参考訳(メタデータ) (2024-10-24T17:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。