論文の概要: OmniParser for Pure Vision Based GUI Agent
- arxiv url: http://arxiv.org/abs/2408.00203v1
- Date: Thu, 1 Aug 2024 00:00:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 22:04:56.517623
- Title: OmniParser for Pure Vision Based GUI Agent
- Title(参考訳): OmniParser for Pure Vision Based GUI Agent
- Authors: Yadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah,
- Abstract要約: 複数のオペレーティングシステムの汎用エージェントとしてGPT-4Vのようなパワーマルチモーダルモデルは、堅牢なスクリーン解析技術が欠如しているため、大部分は過小評価されている。
textsc OmniはScreenSpotベンチマークでGPT-4Vのパフォーマンスを大幅に改善した。
textsc Omni スクリーンショットは GPT-4V ベースラインを上回り、スクリーンショット以外の追加情報を必要とする。
- 参考スコア(独自算出の注目度): 37.911094082816504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent success of large vision language models shows great potential in driving the agent system operating on user interfaces. However, we argue that the power multimodal models like GPT-4V as a general agent on multiple operating systems across different applications is largely underestimated due to the lack of a robust screen parsing technique capable of: 1) reliably identifying interactable icons within the user interface, and 2) understanding the semantics of various elements in a screenshot and accurately associate the intended action with the corresponding region on the screen. To fill these gaps, we introduce \textsc{OmniParser}, a comprehensive method for parsing user interface screenshots into structured elements, which significantly enhances the ability of GPT-4V to generate actions that can be accurately grounded in the corresponding regions of the interface. We first curated an interactable icon detection dataset using popular webpages and an icon description dataset. These datasets were utilized to fine-tune specialized models: a detection model to parse interactable regions on the screen and a caption model to extract the functional semantics of the detected elements. \textsc{OmniParser} significantly improves GPT-4V's performance on ScreenSpot benchmark. And on Mind2Web and AITW benchmark, \textsc{OmniParser} with screenshot only input outperforms the GPT-4V baselines requiring additional information outside of screenshot.
- Abstract(参考訳): 近年の大規模視覚言語モデルの成功は,エージェントシステムをユーザインタフェース上で動作させる大きな可能性を示している。
しかし、GPT-4Vのようなパワーマルチモーダルモデルは、様々なアプリケーションにまたがる複数のオペレーティングシステムの汎用エージェントとして、強靭なスクリーン解析技術が欠如していることから、大半が過小評価されている。
1) ユーザインタフェース内の対話可能なアイコンを確実に識別し、
2)スクリーンショット中の様々な要素の意味を理解し,その動作を画面上の対応する領域と正確に関連付ける。
これらのギャップを埋めるために、ユーザインターフェースのスクリーンショットを構造化要素に解析する包括的な方法である \textsc{OmniParser} を導入する。
まず、人気のあるWebページとアイコン記述データセットを用いて、対話可能なアイコン検出データセットをキュレートした。
これらのデータセットは、画面上の相互作用可能な領域を解析する検出モデルと、検出された要素の機能的セマンティクスを抽出するキャプションモデルである。
textsc{OmniParser}はScreenSpotベンチマークにおけるGPT-4Vのパフォーマンスを大幅に改善する。
Mind2Web と AITW ベンチマークでは、スクリーンショットのみを入力した \textsc{OmniParser} が、スクリーンショット以外の追加情報を必要とする GPT-4V ベースラインを上回っている。
関連論文リスト
- ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - TinyClick: Single-Turn Agent for Empowering GUI Automation [0.18846515534317265]
視覚言語モデル Florence-2-Base を用いたグラフィカルユーザインタフェース(GUI)インタラクションタスクのためのシングルターンエージェントを提案する。
エージェントの主なタスクは、ユーザのコマンドに対応するUI要素の画面座標を特定することである。
これはScreenspotとOmniActで強力なパフォーマンスを示し、コンパクトサイズは0.27Bパラメータと最小レイテンシを維持している。
論文 参考訳(メタデータ) (2024-10-09T12:06:43Z) - Grounded GUI Understanding for Vision Based Spatial Intelligent Agent: Exemplified by Virtual Reality Apps [41.601579396549404]
仮想現実感アプリのための最初のゼロショットcOntext-sensitive inteRactable GUI ElemeNT dEtectionフレームワークOrienterを提案する。
人間の振る舞いを模倣することで、OrienterはまずVRアプリのシーンの意味的コンテキストを観察し、理解し、次に検出を実行する。
論文 参考訳(メタデータ) (2024-09-17T00:58:00Z) - GUI Action Narrator: Where and When Did That Action Take Place? [19.344324166716245]
我々は,4,189種類の動画キャプションサンプルからなるGUIアクションの動画キャプションベンチマークを開発した。
本課題は,自然映像のキャプションに比較して,独特な課題を呈する。
GUI アクションデータセット textbfAct2Cap と GUI ビデオキャプションのためのシンプルなフレームワーク textbfGUI Narrator を紹介する。
論文 参考訳(メタデータ) (2024-06-19T17:22:11Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - LlamaTouch: A Faithful and Scalable Testbed for Mobile UI Task Automation [8.998467488526327]
本稿では、デバイス上でのモバイルUIタスク実行と、忠実でスケーラブルなタスク評価のためのテストベッドであるLlamaTouchを提案する。
LlamaTouchは、エージェントが手動でアノテートされた本質的なアプリケーション/システム状態をすべてトラバースするかどうかのみを評価する、新しい評価アプローチを採用している。
LlamaTouchはまた、タスクアノテーションと新しいモバイルエージェントの統合を可能にする。
論文 参考訳(メタデータ) (2024-04-12T15:39:09Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V [103.68138147783614]
大規模マルチモーダルモデルの視覚的グラウンド化能力を解き放つために,新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。
我々は、SEEM/SAMのような市販のインタラクティブセグメンテーションモデルを用いて、画像を領域に分割し、これらの領域を一連のマークでオーバーレイする。
マークされたイメージを入力として使用することで、GPT-4Vは視覚的な接地を必要とする質問に答えることができる。
論文 参考訳(メタデータ) (2023-10-17T17:51:31Z) - From Pixels to UI Actions: Learning to Follow Instructions via Graphical
User Interfaces [66.85108822706489]
本稿では,人間がよく使う概念的インタフェースを用いて,デジタル世界と対話するエージェントを作成することに焦点を当てる。
このようなエージェントは、タスクに従うGUIベースの命令のMiniWob++ベンチマークで、人間のクラウドワーカーより優れています。
論文 参考訳(メタデータ) (2023-05-31T23:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。