論文の概要: META-GUI: Towards Multi-modal Conversational Agents on Mobile GUI
- arxiv url: http://arxiv.org/abs/2205.11029v1
- Date: Mon, 23 May 2022 04:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 12:30:15.736726
- Title: META-GUI: Towards Multi-modal Conversational Agents on Mobile GUI
- Title(参考訳): META-GUI:モバイルGUIにおけるマルチモーダル対話エージェントを目指して
- Authors: Liangtai Sun, Xingyu Chen, Lu Chen, Tianle Dai, Zichen Zhu and Kai Yu
- Abstract要約: 我々はGUIベースのタスク指向対話システム(GUI-TOD)という新しいTODアーキテクチャを提案する。
GUI-TODシステムは、バックエンドAPIを呼び出すことなく、実際のAPP上でGUI操作を直接実行し、タスクを実行することができる。
モバイルGUI上でマルチモーダル対話エージェントをトレーニングするためのデータセットであるMETA-GUIをリリースする。
- 参考スコア(独自算出の注目度): 28.484013258445067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task-oriented dialogue (TOD) systems have been widely used by mobile phone
intelligent assistants to accomplish tasks such as calendar scheduling or hotel
booking. Current TOD systems usually focus on multi-turn text/speech
interaction and reply on calling back-end APIs to search database information
or execute the task on mobile phone. However, this architecture greatly limits
the information searching capability of intelligent assistants and may even
lead to task failure if APIs are not available or the task is too complicated
to be executed by the provided APIs. In this paper, we propose a new TOD
architecture: GUI-based task-oriented dialogue system (GUI-TOD). A GUI-TOD
system can directly perform GUI operations on real APPs and execute tasks
without invoking backend APIs. Furthermore, we release META-GUI, a dataset for
training a Multi-modal conversational agent on mobile GUI. We also propose a
multi-model action prediction and response model. It showed promising results
on META-GUI, but there is still room for further improvement. The dataset and
models will be publicly available.
- Abstract(参考訳): タスク指向対話(tod)システムは、携帯電話のインテリジェントアシスタントがカレンダーのスケジューリングやホテル予約などのタスクを達成するために広く使われている。
現在のTODシステムは、通常マルチターンテキスト/音声インタラクションに焦点を当て、データベース情報を検索したり、携帯電話でタスクを実行するためにバックエンドAPIを呼び出すことに応答する。
しかし、このアーキテクチャはインテリジェントアシスタントの情報検索能力を大幅に制限し、APIが利用できない場合や、提供されるAPIによって実行されるタスクが複雑すぎる場合には、タスクの失敗につながる可能性がある。
本稿では,GUIベースのタスク指向対話システム(GUI-TOD)を提案する。
GUI-TODシステムは、バックエンドAPIを呼び出すことなく、実際のAPP上でGUI操作を直接実行し、タスクを実行することができる。
さらに,モバイルGUI上でマルチモーダル対話エージェントをトレーニングするためのデータセットであるMETA-GUIをリリースする。
また,多モデル行動予測と応答モデルを提案する。
META-GUIで有望な結果を示したが、改善の余地はまだ残っている。
データセットとモデルは公開される予定だ。
関連論文リスト
- Falcon-UI: Understanding GUI Before Following User Instructions [57.67308498231232]
インテリジェンスフリーなGUIナビゲーションデータセットであるInsight-UIデータセットを導入し、GUI環境のモデル理解を強化する。
Insight-UIデータセットはCommon Crawlコーパスから自動的に生成され、さまざまなプラットフォームをシミュレートする。
我々は、最初Insight-UIデータセットで事前訓練され、その後AndroidおよびWeb GUIデータセットで微調整されたGUIエージェントモデルFalcon-UIを開発した。
論文 参考訳(メタデータ) (2024-12-12T15:29:36Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - MobileFlow: A Multimodal LLM For Mobile GUI Agent [4.7619361168442005]
本稿では,モバイルGUIエージェント用のマルチモーダルな大規模言語モデルであるMobileFlowを紹介する。
MobileFlowは約21億のパラメータを含み、新しいハイブリッドビジュアルエンコーダを備えている。
画像データを完全に解釈し、GUIインタラクションタスクのユーザ命令を理解する能力がある。
論文 参考訳(メタデータ) (2024-07-05T08:37:10Z) - AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。
AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文 参考訳(メタデータ) (2024-07-03T17:59:58Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2024-06-14T17:59:08Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。