論文の概要: Mobile-Env: An Evaluation Platform and Benchmark for LLM-GUI Interaction
- arxiv url: http://arxiv.org/abs/2305.08144v3
- Date: Sat, 24 Feb 2024 12:43:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 21:51:17.468640
- Title: Mobile-Env: An Evaluation Platform and Benchmark for LLM-GUI Interaction
- Title(参考訳): Mobile-Env: LLM-GUIインタラクションの評価プラットフォームとベンチマーク
- Authors: Danyang Zhang, Hongshen Xu, Zihan Zhao, Lu Chen, Ruisheng Cao, Kai Yu
- Abstract要約: GUIインタラクションプラットフォームであるMobile-Envについて紹介する。
WikiHowアプリに基づくGUIタスクセットはMobile-Envで収集され、さまざまなGUIインタラクション機能をカバーするベンチマークを形成する。
- 参考スコア(独自算出の注目度): 22.17170313685781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The User Interface (UI) is pivotal for human interaction with the digital
world, facilitating efficient control of machines, information navigation, and
complex task completion. To achieve easy, efficient, and free interactions,
researchers have been exploring the potential of encapsulating the traditional
Programming Language Interfaces (PLIs) and Graphical User Interfaces (GUIs)
into Natural Language Interfaces (NLIs). However, due to the limited
capabilities of small models, traditional work mainly focuses on tasks for
which only a single step is needed. This largely constrains the application of
NLIs. Recently, Large Language Models (LLMs) have exhibited robust reasoning
and planning abilities, yet their potential for multi-turn interactions in
complex environments remains under-explored. To assess LLMs as NLIs in
real-world graphical environments, we introduce the GUI interaction platform,
Mobile-Env, specifically on mobile apps. Mobile-Env enhances interaction
flexibility, task extensibility, and environment adaptability compared with
previous environments. A GUI task set based on WikiHow app is collected on
Mobile-Env to form a benchmark covering a range of GUI interaction
capabilities. We further conduct comprehensive evaluations of LLM agents,
including various versions of GPT, LLaMA 2, and AgentLM, on WikiHow task set to
acquire insights into the potentials and challenges of LLMs in GUI
interactions.
- Abstract(参考訳): ユーザインタフェース(ui)は、機械の効率的な制御、情報ナビゲーション、複雑なタスクの完了を容易にするデジタル世界とのヒューマンインタラクションにおいて重要である。
簡単で効率的で自由な対話を実現するため、研究者は従来のプログラミング言語インタフェース(PLI)とグラフィカルユーザインタフェース(GUI)を自然言語インタフェース(NLI)にカプセル化する可能性を模索してきた。
しかし、小さなモデルの能力が限られているため、従来の作業は主に1ステップしか必要としないタスクに焦点を当てている。
これは主にNLIの適用を制限する。
近年,大規模言語モデル (llm) はロバストな推論と計画能力を示しているが,複雑な環境におけるマルチターン対話の可能性は未検討のままである。
実世界のグラフィカル環境において,LLMをNLIとして評価するために,モバイルアプリケーションを中心にGUIインタラクションプラットフォームであるMobile-Envを紹介する。
mobile-envは、以前の環境と比較して、インタラクションの柔軟性、タスクの拡張性、環境適応性を高める。
WikiHowアプリに基づくGUIタスクセットはMobile-Envで収集され、さまざまなGUIインタラクション機能をカバーするベンチマークを形成する。
GPT, LLaMA 2 および AgentLM の様々なバージョンを含む LLM エージェントを WikiHow タスクで総合的に評価し,GUI インタラクションにおける LLM の可能性と課題について考察する。
関連論文リスト
- On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - Comprehensive Cognitive LLM Agent for Smartphone GUI Automation [69.32269322774543]
大規模言語モデル(LLM)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
我々は、包括的環境認識(CEP)と条件付き行動予測(CAP)という2つの新しいアプローチで、包括的包括的アンダーラインAgent(CoCo-Agent)を提案する。
本稿では, AITW と META-GUI ベンチマークにおいて, 現実的なシナリオにおいて有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - Large Language User Interfaces: Voice Interactive User Interfaces
powered by LLMs [5.688209983513539]
本研究は,ユーザとユーザインターフェースの仲介として機能するフレームワークを構築するために,LCMの高機能化を図り,指導することに焦点を当てる。
この統合は、静的UIシステムを高度に動的で適応可能なソリューションに進化させ、インテリジェントでレスポンシブなユーザーエクスペリエンスの新しいフロンティアを導入する。
論文 参考訳(メタデータ) (2024-02-07T21:08:49Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z) - Intelligent Virtual Assistants with LLM-based Process Automation [31.275267197246595]
本稿では,高レベルのユーザ要求に基づいて,モバイルアプリ内のマルチステップ操作を自動的に実行可能な,LLMベースの新しい仮想アシスタントを提案する。
このシステムは、指示を解析し、目標を推論し、行動を実行するエンドツーエンドのソリューションを提供することによって、アシスタントの進歩を表す。
論文 参考訳(メタデータ) (2023-12-04T07:51:58Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - Unified Human-Scene Interaction via Prompted Chain-of-Contacts [64.54156041189324]
HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。
本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一型HSIフレームワークUniHSIを提案する。
論文 参考訳(メタデータ) (2023-09-14T17:59:49Z) - Sensecape: Enabling Multilevel Exploration and Sensemaking with Large
Language Models [12.141818433363628]
Sensecapeは、大規模な言語モデルで複雑な情報タスクをサポートするために設計された対話型システムである。
Sensecapeはユーザーに対して、より多くのトピックを探索し、知識を階層的に構造化することを可能にする。
論文 参考訳(メタデータ) (2023-05-19T07:31:59Z) - Low-code LLM: Visual Programming over LLMs [49.37966903221752]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
6種類のシンプルなローコードビジュアルプログラミングインタラクションが組み込まれており、すべてクリック、ドラッグ、テキスト編集によってサポートされている。
低コードLSMの利点として、制御可能な生成結果、ユーザフレンドリなヒューマン-LLMインタラクション、広く適用可能なシナリオの3つを挙げる。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z) - Enabling Conversational Interaction with Mobile UI using Large Language
Models [15.907868408556885]
自然言語で多様なUIタスクを実行するには、開発者は通常、特定のタスクごとに別々のデータセットとモデルを作成する必要がある。
本稿では,単一言語モデルを用いて,モバイルUIとの多目的対話を実現することの実現可能性について検討する。
論文 参考訳(メタデータ) (2022-09-18T20:58:39Z) - Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task
Feasibility in Interactive Visual Environments [54.405920619915655]
これまで最大数のインタラクティブ環境向けに自然言語コマンドを用いたデータセットであるMoTIF(Iterative Feedback)を用いたモバイルアプリタスクを紹介します。
MoTIFは、満足できないインタラクティブ環境のための自然言語リクエストを最初に含んでいる。
初期実現可能性分類実験を行い、より豊かな視覚言語表現の必要性を検証し、f1スコア37.3まで到達した。
論文 参考訳(メタデータ) (2021-04-17T14:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。