Fugu-MT 論文翻訳(概要): OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

論文の概要: OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

arxiv url: http://arxiv.org/abs/2410.23218v1
Date: Wed, 30 Oct 2024 17:10:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.440347
Title: OS-ATLAS: A Foundation Action Model for Generalist GUI Agents
Title（参考訳）: OS-ATLAS:ジェネラリストGUIエージェントのための基礎アクションモデル
Authors: Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao,
Abstract要約: OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
参考スコア（独自算出の注目度）: 55.37173845836839
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing efforts in building GUI agents heavily rely on the availability of robust commercial Vision-Language Models (VLMs) such as GPT-4o and GeminiProVision. Practitioners are often reluctant to use open-source VLMs due to their significant performance lag compared to their closed-source counterparts, particularly in GUI grounding and Out-Of-Distribution (OOD) scenarios. To facilitate future research in this area, we developed OS-Atlas - a foundational GUI action model that excels at GUI grounding and OOD agentic tasks through innovations in both data and modeling. We have invested significant engineering effort in developing an open-source toolkit for synthesizing GUI grounding data across multiple platforms, including Windows, Linux, MacOS, Android, and the web. Leveraging this toolkit, we are releasing the largest open-source cross-platform GUI grounding corpus to date, which contains over 13 million GUI elements. This dataset, combined with innovations in model training, provides a solid foundation for OS-Atlas to understand GUI screenshots and generalize to unseen interfaces. Through extensive evaluation across six benchmarks spanning three different platforms (mobile, desktop, and web), OS-Atlas demonstrates significant performance improvements over previous state-of-the-art models. Our evaluation also uncovers valuable insights into continuously improving and scaling the agentic capabilities of open-source VLMs.
Abstract（参考訳）: GUIエージェントの構築への取り組みは、GPT-4oやGeminiProVisionのような堅牢な商用ビジョンランゲージモデル(VLM)の可用性に大きく依存している。実践者は、特にGUIグラウンディングやOOD(Out-Of-Distribution)シナリオにおいて、クローズドソースに比べて大きなパフォーマンス遅延のため、しばしばオープンソースのVLMの使用に消極的である。この分野での今後の研究を促進するため、我々はデータとモデリングの両方の革新を通じて、GUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルであるOS-Atlasを開発した。私たちは、Windows、Linux、MacOS、Android、Webを含む複数のプラットフォームにまたがるGUIグラウンドデータを合成するオープンソースツールキットの開発に、エンジニアリングの多大な労力を費やしてきました。このツールキットを活用して、これまでに1300万以上のGUI要素を含む、最大のオープンソースクロスプラットフォームGUI基盤コーパスをリリースしています。このデータセットとモデルトレーニングの革新が組み合わさって、OS-AtlasはGUIスクリーンショットを理解し、目に見えないインターフェースに一般化する基盤を提供する。 3つの異なるプラットフォーム(モバイル、デスクトップ、Web)にまたがる6つのベンチマークの広範な評価を通じて、OS-Atlasは従来の最先端モデルよりも大幅なパフォーマンス向上を示している。我々の評価は、オープンソースVLMのエージェント能力の継続的な改善とスケーリングに関する貴重な洞察を明らかにする。

関連論文リスト

TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials [70.06743063375121]
リッチなマルチモーダルWebチュートリアルから学習し,汎用GUIエージェントを構築するTongUIフレームワークを提案する。我々は、5つのオペレーティングシステムと200以上のアプリケーションにまたがる143Kトラジェクトリデータを含むGUI-Netデータセットを作成する。我々はGUI-Net上でQwen2.5-VL-3B/7Bモデルを微調整してTongUIエージェントを開発する。
論文参考訳（メタデータ） (2025-04-17T06:15:56Z)
DeskVision: Large Scale Desktop Region Captioning for Advanced GUI Agents [17.20455408001344]
本稿では,GUIデータの自動生成パイプラインであるAutoCaptionerを提案する。私たちは、日々の使用を反映し、さまざまなシステムやUI要素をカバーする、新しい大規模なデスクトップGUIデータセットであるDeskVisionを作成しました。我々は新しいGUI理解モデル GUIExplorerを訓練し、ビジュアル要素の理解とグラウンド化において最先端(SOTA)のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-14T08:16:02Z)
Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。 UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-15T22:17:30Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
Improved GUI Grounding via Iterative Narrowing [0.03922370499388702]
本稿では,GUIにおける汎用モデルと微調整モデルの両方の性能を最大61%向上させるために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。
論文参考訳（メタデータ） (2024-11-18T05:47:12Z)
GUI Agents with Foundation Models: A Comprehensive Survey [52.991688542729385]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。データ、フレームワーク、アプリケーションにおける重要なイノベーションを強調します。本稿では, (M)LLM ベースの GUI エージェントの分野におけるさらなる発展を期待する。
論文参考訳（メタデータ） (2024-11-07T17:28:10Z)
AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文参考訳（メタデータ） (2024-10-28T17:05:10Z)
EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data [15.801018643716437]
本稿では,大規模視覚言語モデル(LVLM)のGUI理解と対話能力を,データ駆動型アプローチにより向上することを目的とする。本稿では,Web上のWebページから大規模で粒度の高いトレーニングデータを自動的に生成する汎用データ合成フレームワークEDGEを提案する。提案手法は,手動アノテーションへの依存を著しく低減し,研究者がWeb上で利用可能な膨大な公開リソースを活用して作業を進めることを可能にする。
論文参考訳（メタデータ） (2024-10-25T10:46:17Z)
Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents [20.08996257335876]
環境を視覚的に完全に知覚し,GUI上でのピクセルレベルの操作を直接行う,GUIエージェントのためのヒューマンライクなエボディメントを提唱する。これまでに10MのGUI要素と参照式を1.3Mのスクリーンショット上に収めた、GUIの視覚的接地のための最大のデータセットを収集しました。ウェブベースの合成データとLLaVAアーキテクチャの若干の適応を含む簡単なレシピは、このような視覚的接地モデルのトレーニングに驚くほど効果的であることを示す。
論文参考訳（メタデータ） (2024-10-07T17:47:50Z)
GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文参考訳（メタデータ） (2024-06-17T08:30:55Z)
GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文参考訳（メタデータ） (2024-06-16T06:56:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。