論文の概要: META-GUI: Towards Multi-modal Conversational Agents on Mobile GUI
- arxiv url: http://arxiv.org/abs/2205.11029v1
- Date: Mon, 23 May 2022 04:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 12:30:15.736726
- Title: META-GUI: Towards Multi-modal Conversational Agents on Mobile GUI
- Title(参考訳): META-GUI:モバイルGUIにおけるマルチモーダル対話エージェントを目指して
- Authors: Liangtai Sun, Xingyu Chen, Lu Chen, Tianle Dai, Zichen Zhu and Kai Yu
- Abstract要約: 我々はGUIベースのタスク指向対話システム(GUI-TOD)という新しいTODアーキテクチャを提案する。
GUI-TODシステムは、バックエンドAPIを呼び出すことなく、実際のAPP上でGUI操作を直接実行し、タスクを実行することができる。
モバイルGUI上でマルチモーダル対話エージェントをトレーニングするためのデータセットであるMETA-GUIをリリースする。
- 参考スコア(独自算出の注目度): 28.484013258445067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task-oriented dialogue (TOD) systems have been widely used by mobile phone
intelligent assistants to accomplish tasks such as calendar scheduling or hotel
booking. Current TOD systems usually focus on multi-turn text/speech
interaction and reply on calling back-end APIs to search database information
or execute the task on mobile phone. However, this architecture greatly limits
the information searching capability of intelligent assistants and may even
lead to task failure if APIs are not available or the task is too complicated
to be executed by the provided APIs. In this paper, we propose a new TOD
architecture: GUI-based task-oriented dialogue system (GUI-TOD). A GUI-TOD
system can directly perform GUI operations on real APPs and execute tasks
without invoking backend APIs. Furthermore, we release META-GUI, a dataset for
training a Multi-modal conversational agent on mobile GUI. We also propose a
multi-model action prediction and response model. It showed promising results
on META-GUI, but there is still room for further improvement. The dataset and
models will be publicly available.
- Abstract(参考訳): タスク指向対話(tod)システムは、携帯電話のインテリジェントアシスタントがカレンダーのスケジューリングやホテル予約などのタスクを達成するために広く使われている。
現在のTODシステムは、通常マルチターンテキスト/音声インタラクションに焦点を当て、データベース情報を検索したり、携帯電話でタスクを実行するためにバックエンドAPIを呼び出すことに応答する。
しかし、このアーキテクチャはインテリジェントアシスタントの情報検索能力を大幅に制限し、APIが利用できない場合や、提供されるAPIによって実行されるタスクが複雑すぎる場合には、タスクの失敗につながる可能性がある。
本稿では,GUIベースのタスク指向対話システム(GUI-TOD)を提案する。
GUI-TODシステムは、バックエンドAPIを呼び出すことなく、実際のAPP上でGUI操作を直接実行し、タスクを実行することができる。
さらに,モバイルGUI上でマルチモーダル対話エージェントをトレーニングするためのデータセットであるMETA-GUIをリリースする。
また,多モデル行動予測と応答モデルを提案する。
META-GUIで有望な結果を示したが、改善の余地はまだ残っている。
データセットとモデルは公開される予定だ。
関連論文リスト
- Comprehensive Cognitive LLM Agent for Smartphone GUI Automation [69.32269322774543]
大規模言語モデル(LLM)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
我々は、包括的環境認識(CEP)と条件付き行動予測(CAP)という2つの新しいアプローチで、包括的包括的アンダーラインAgent(CoCo-Agent)を提案する。
本稿では, AITW と META-GUI ベンチマークにおいて, 現実的なシナリオにおいて有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z) - CogAgent: A Visual Language Model for GUI Agents [61.26491779502794]
GUI理解とナビゲーションに特化した視覚言語モデル(VLM)であるCogAgentを紹介する。
低解像度画像エンコーダと高解像度画像エンコーダの両方を利用することで、CogAgentは1120*1120の解像度で入力をサポートする。
CogAgentは、VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、 infoVQA、DocVQA、MM-Vet、POPEを含む5つの一般的なVQAベンチマークで、技術の現状を達成している。
論文 参考訳(メタデータ) (2023-12-14T13:20:57Z) - Interactive Task Planning with Language Models [97.86399877812923]
対話型ロボットフレームワークは、長期のタスクプランニングを達成し、実行中であっても、新しい目標や異なるタスクに容易に一般化することができる。
最近の大規模言語モデルに基づくアプローチは、よりオープンな計画を可能にするが、多くの場合、重いプロンプトエンジニアリングやドメイン固有の事前訓練されたモデルを必要とする。
本稿では,言語モデルを用いた対話型タスクプランニングを実現するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T17:59:12Z) - Pairwise GUI Dataset Construction Between Android Phones and Tablets [24.208087862974033]
Paptデータセットは、Androidスマートフォンとタブレット用に調整されたペアワイズGUIデータセットである。
本稿では,このデータセット構築のための新しいGUIコレクション手法を提案する。
論文 参考訳(メタデータ) (2023-10-07T09:30:42Z) - A Pairwise Dataset for GUI Conversion and Retrieval between Android
Phones and Tablets [24.208087862974033]
Paptデータセットは、Androidスマートフォンとタブレット間のGUI変換と検索のためのペアワイズデータセットである。
データセットには5,593の電話-タブレットアプリペアから10,035の電話-タブレットGUIページペアが含まれている。
論文 参考訳(メタデータ) (2023-07-25T03:25:56Z) - Mobile-Env: An Evaluation Platform and Benchmark for LLM-GUI Interaction [22.17170313685781]
GUIインタラクションプラットフォームであるMobile-Envについて紹介する。
WikiHowアプリに基づくGUIタスクセットはMobile-Envで収集され、さまざまなGUIインタラクション機能をカバーするベンチマークを形成する。
論文 参考訳(メタデータ) (2023-05-14T12:31:03Z) - Toolformer: Language Models Can Teach Themselves to Use Tools [62.04867424598204]
言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。
LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。
Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
論文 参考訳(メタデータ) (2023-02-09T16:49:57Z) - Dialog without Dialog Data: Learning Visual Dialog Agents from VQA Data [75.7372052716556]
『ダイアログなしダイアログ』ではエージェントが言語レベルの監督なしに新しいタスクに適応できるダイアログモデルを開発する必要がある。
意図と言語を分解することにより、新しいタスクを微調整した後の言語的ドリフトを最小限に抑える。
論文 参考訳(メタデータ) (2020-07-24T19:35:57Z) - SOLOIST: Building Task Bots at Scale with Transfer Learning and Machine
Teaching [81.45928589522032]
トランスフォーマーに基づく自動回帰言語モデルを用いて,モジュール型タスク指向対話システムをパラメータ化する。
タスクグラウンド応答生成モデルである異種ダイアログコーパスの事前学習を行う。
実験により、SOLOISTは、よく研究されたタスク指向のダイアログベンチマーク上で、新しい最先端のダイアログを生成する。
論文 参考訳(メタデータ) (2020-05-11T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。