論文の概要: Mobile-Env: An Evaluation Platform and Benchmark for LLM-GUI Interaction
- arxiv url: http://arxiv.org/abs/2305.08144v3
- Date: Sat, 24 Feb 2024 12:43:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 21:51:17.468640
- Title: Mobile-Env: An Evaluation Platform and Benchmark for LLM-GUI Interaction
- Title(参考訳): Mobile-Env: LLM-GUIインタラクションの評価プラットフォームとベンチマーク
- Authors: Danyang Zhang, Hongshen Xu, Zihan Zhao, Lu Chen, Ruisheng Cao, Kai Yu
- Abstract要約: GUIインタラクションプラットフォームであるMobile-Envについて紹介する。
WikiHowアプリに基づくGUIタスクセットはMobile-Envで収集され、さまざまなGUIインタラクション機能をカバーするベンチマークを形成する。
- 参考スコア(独自算出の注目度): 22.17170313685781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The User Interface (UI) is pivotal for human interaction with the digital
world, facilitating efficient control of machines, information navigation, and
complex task completion. To achieve easy, efficient, and free interactions,
researchers have been exploring the potential of encapsulating the traditional
Programming Language Interfaces (PLIs) and Graphical User Interfaces (GUIs)
into Natural Language Interfaces (NLIs). However, due to the limited
capabilities of small models, traditional work mainly focuses on tasks for
which only a single step is needed. This largely constrains the application of
NLIs. Recently, Large Language Models (LLMs) have exhibited robust reasoning
and planning abilities, yet their potential for multi-turn interactions in
complex environments remains under-explored. To assess LLMs as NLIs in
real-world graphical environments, we introduce the GUI interaction platform,
Mobile-Env, specifically on mobile apps. Mobile-Env enhances interaction
flexibility, task extensibility, and environment adaptability compared with
previous environments. A GUI task set based on WikiHow app is collected on
Mobile-Env to form a benchmark covering a range of GUI interaction
capabilities. We further conduct comprehensive evaluations of LLM agents,
including various versions of GPT, LLaMA 2, and AgentLM, on WikiHow task set to
acquire insights into the potentials and challenges of LLMs in GUI
interactions.
- Abstract(参考訳): ユーザインタフェース(ui)は、機械の効率的な制御、情報ナビゲーション、複雑なタスクの完了を容易にするデジタル世界とのヒューマンインタラクションにおいて重要である。
簡単で効率的で自由な対話を実現するため、研究者は従来のプログラミング言語インタフェース(PLI)とグラフィカルユーザインタフェース(GUI)を自然言語インタフェース(NLI)にカプセル化する可能性を模索してきた。
しかし、小さなモデルの能力が限られているため、従来の作業は主に1ステップしか必要としないタスクに焦点を当てている。
これは主にNLIの適用を制限する。
近年,大規模言語モデル (llm) はロバストな推論と計画能力を示しているが,複雑な環境におけるマルチターン対話の可能性は未検討のままである。
実世界のグラフィカル環境において,LLMをNLIとして評価するために,モバイルアプリケーションを中心にGUIインタラクションプラットフォームであるMobile-Envを紹介する。
mobile-envは、以前の環境と比較して、インタラクションの柔軟性、タスクの拡張性、環境適応性を高める。
WikiHowアプリに基づくGUIタスクセットはMobile-Envで収集され、さまざまなGUIインタラクション機能をカバーするベンチマークを形成する。
GPT, LLaMA 2 および AgentLM の様々なバージョンを含む LLM エージェントを WikiHow タスクで総合的に評価し,GUI インタラクションにおける LLM の可能性と課題について考察する。
関連論文リスト
- GUI Agents with Foundation Models: A Comprehensive Survey [52.991688542729385]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。
データ、フレームワーク、アプリケーションにおける重要なイノベーションを強調します。
本稿では, (M)LLM ベースの GUI エージェントの分野におけるさらなる発展を期待する。
論文 参考訳(メタデータ) (2024-11-07T17:28:10Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。
実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。
評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-10-28T17:05:10Z) - EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data [15.801018643716437]
本稿では,大規模視覚言語モデル(LVLM)のGUI理解と対話能力を,データ駆動型アプローチにより向上することを目的とする。
本稿では,Web上のWebページから大規模で粒度の高いトレーニングデータを自動的に生成する汎用データ合成フレームワークEDGEを提案する。
提案手法は,手動アノテーションへの依存を著しく低減し,研究者がWeb上で利用可能な膨大な公開リソースを活用して作業を進めることを可能にする。
論文 参考訳(メタデータ) (2024-10-25T10:46:17Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
SPA-Benchは3つの重要なコントリビューションを提供している。 英語と中国語の両方で、システムとサードパーティアプリをカバーする多様なタスクセットで、日々のルーチンで一般的に使用される機能に焦点を当てている。
複数の次元にまたがってエージェントのパフォーマンスを自動的に評価する新しい評価パイプラインは、タスク完了とリソース消費に関連する7つの指標を含んでいる。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z) - General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。