論文の概要: GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents
- arxiv url: http://arxiv.org/abs/2406.10819v1
- Date: Sun, 16 Jun 2024 06:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 20:41:29.316326
- Title: GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents
- Title(参考訳): GUI-WORLD:GUI指向マルチモーダルLCMエージェントのためのデータセット
- Authors: Dongping Chen, Yue Huang, Siyuan Wu, Jingyu Tang, Liuyi Chen, Yilin Bai, Zhigang He, Chenlong Wang, Huichi Zhou, Yiqiang Li, Tianshuo Zhou, Yue Yu, Chujie Gao, Qihui Zhang, Yi Gui, Zhen Li, Yao Wan, Pan Zhou, Jianfeng Gao, Lichao Sun,
- Abstract要約: 本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
- 参考スコア(独自算出の注目度): 73.9254861755974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Multimodal Large Language Models (MLLMs) have been used as agents to control keyboard and mouse inputs by directly perceiving the Graphical User Interface (GUI) and generating corresponding code. However, current agents primarily exhibit excellent understanding capabilities in static environments and are predominantly applied in relatively simple domains, such as Web or mobile interfaces. We argue that a robust GUI agent should be capable of perceiving temporal information on the GUI, including dynamic Web content and multi-step tasks. Additionally, it should possess a comprehensive understanding of various GUI scenarios, including desktop software and multi-window interactions. To this end, this paper introduces a new dataset, termed GUI-World, which features meticulously crafted Human-MLLM annotations, extensively covering six GUI scenarios and eight types of GUI-oriented questions in three formats. We evaluate the capabilities of current state-of-the-art MLLMs, including ImageLLMs and VideoLLMs, in understanding various types of GUI content, especially dynamic and sequential content. Our findings reveal that ImageLLMs struggle with dynamic GUI content without manually annotated keyframes or operation history. On the other hand, VideoLLMs fall short in all GUI-oriented tasks given the sparse GUI video dataset. Based on GUI-World, we take the initial step of leveraging a fine-tuned VideoLLM as a GUI agent, demonstrating an improved understanding of various GUI tasks. However, due to the limitations in the performance of base LLMs, we conclude that using VideoLLMs as GUI agents remains a significant challenge. We believe our work provides valuable insights for future research in dynamic GUI content understanding. The code and dataset are publicly available at our project homepage: https://gui-world.github.io/.
- Abstract(参考訳): 近年,グラフィカルユーザインタフェース(GUI)を直接認識し,対応するコードを生成することでキーボードやマウスの入力を制御するエージェントとして,MLLM(Multimodal Large Language Models)が使用されている。
しかし、現在のエージェントは、主に静的環境において優れた理解能力を示し、Webやモバイルインターフェースのような比較的単純なドメインで主に適用されます。
我々は、ロバストGUIエージェントは、動的Webコンテンツやマルチステップタスクを含むGUI上の時間情報を知覚できるべきであると論じる。
さらに、デスクトップソフトウェアやマルチウィンドウインタラクションなど、さまざまなGUIシナリオを包括的に理解する必要がある。
そこで本研究では,GUI指向の6つのシナリオと8種類のGUI指向の質問を3つのフォーマットで包括的に記述し,人間のMLLMアノテーションを巧みに構築したGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツ,特に動的および逐次的コンテンツの理解において,ImageLLMsやVideoLLMsなどの最先端MLLMの能力を評価する。
その結果,ImageLLMは手動で注釈付けされたキーフレームや操作履歴なしで動的GUIコンテンツに苦しむことがわかった。
一方、ビデオLLMは、疎いGUIビデオデータセットを考えると、すべてのGUI指向タスクでは不足している。
GUI-Worldをベースとして、細調整されたVideoLLMをGUIエージェントとして活用し、様々なGUIタスクの理解を深める最初の一歩を踏み出した。
しかし,基本LLMの性能に限界があるため,GUIエージェントとしてVideoLLMを使うことは依然として大きな課題である。
われわれの研究は、動的GUIコンテンツ理解における将来の研究に貴重な洞察をもたらすと信じている。
コードとデータセットはプロジェクトのホームページで公開されています。
関連論文リスト
- ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.37173845836839]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。
現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文 参考訳(メタデータ) (2024-10-30T17:10:19Z) - Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents [20.08996257335876]
環境を視覚的に完全に知覚し,GUI上でのピクセルレベルの操作を直接行う,GUIエージェントのためのヒューマンライクなエボディメントを提唱する。
これまでに10MのGUI要素と参照式を1.3Mのスクリーンショット上に収めた、GUIの視覚的接地のための最大のデータセットを収集しました。
ウェブベースの合成データとLLaVAアーキテクチャの若干の適応を含む簡単なレシピは、このような視覚的接地モデルのトレーニングに驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2024-10-07T17:47:50Z) - MobileFlow: A Multimodal LLM For Mobile GUI Agent [4.7619361168442005]
本稿では,モバイルGUIエージェント用のマルチモーダルな大規模言語モデルであるMobileFlowを紹介する。
MobileFlowは約21億のパラメータを含み、新しいハイブリッドビジュアルエンコーダを備えている。
画像データを完全に解釈し、GUIインタラクションタスクのユーザ命令を理解する能力がある。
論文 参考訳(メタデータ) (2024-07-05T08:37:10Z) - GUI Action Narrator: Where and When Did That Action Take Place? [19.344324166716245]
我々は,4,189種類の動画キャプションサンプルからなるGUIアクションの動画キャプションベンチマークを開発した。
本課題は,自然映像のキャプションに比較して,独特な課題を呈する。
GUI アクションデータセット textbfAct2Cap と GUI ビデオキャプションのためのシンプルなフレームワーク textbfGUI Narrator を紹介する。
論文 参考訳(メタデータ) (2024-06-19T17:22:11Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2024-06-14T17:59:08Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。