論文の概要: Mobile-Env: An Evaluation Platform and Benchmark for Interactive Agents
in LLM Era
- arxiv url: http://arxiv.org/abs/2305.08144v2
- Date: Wed, 14 Jun 2023 09:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 00:47:49.978897
- Title: Mobile-Env: An Evaluation Platform and Benchmark for Interactive Agents
in LLM Era
- Title(参考訳): Mobile-Env: LLM時代のインタラクティブエージェントの評価プラットフォームとベンチマーク
- Authors: Danyang Zhang, Lu Chen, Zihan Zhao, Ruisheng Cao, Kai Yu
- Abstract要約: 適切なベンチマークのための基盤を提供するために、新しいインタラクションプラットフォームであるMobile-Envを構築します。
InfoUI タスクセット WikiHow は、構造化テキストベースの環境における LLM のマルチステップインタラクション能力のベンチマークを確立するために構築される。
- 参考スコア(独自算出の注目度): 27.521529196090796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diverse evaluation benchmarks play a crucial role to assess a wide range of
capabilities of large language models (LLM). Although plenty of endeavors have
been dedicated to building valuable benchmarks, there is still little work
aiming at evaluating the capability of LLM in multistep interactive
environments. Noticing that LLM requires a text representation of the
environment observations for interaction, we choose to fill such a blank by
building a novel benchmark based on the information user interface (InfoUI).
InfoUI consists of rich text contents and can be represented in some text
formats, thus is suitable for the assessment of interaction ability of LLM.
Additionally, the complex structures of InfoUI can further raise a challenge
for LLM to understand structured texts rather than plain texts. An interaction
platform is always used to evaluate an agent, however, there is still a lack of
a satisfactory interaction platform dedicated to InfoUI. Consequently, we
propose to build a novel easily-extendable, adaptable, and close-to-reality
interaction platform, Mobile-Env, to provide a base for an appropriate
benchmark. Based on Mobile-Env, an InfoUI task set WikiHow is then built to
establish a benchmark for the multistep interaction capability of LLM in
structured text-based environments. Agents based on a series of LLMs are tested
on the task set to obtain an insight into the potential and challenge of LLM
for InfoUI interaction. It is sincerely welcome that the community contribute
new environments and new task sets for Mobile-Env to provide better test
benchmarks and facilitate the development of the corresponding domains.
- Abstract(参考訳): 様々な評価ベンチマークは、大規模言語モデル(LLM)の幅広い機能を評価する上で重要な役割を果たす。
価値あるベンチマークの構築に多くの取り組みがなされているが、マルチステップ対話環境におけるllmの能力評価を目的とした作業はまだ少ない。
LLMは、インタラクションのための環境観測のテキスト表現を必要とすることに気づき、情報ユーザインタフェース(InfoUI)に基づいた新しいベンチマークを構築することで、そのような空白を埋めることを選択します。
infouiはリッチテキストコンテンツで構成され、いくつかのテキストフォーマットで表現できるため、llmの相互作用能力の評価に適している。
さらに、infouiの複雑な構造は、llmがプレーンテキストではなく構造化テキストを理解することの難しさをさらに高めることができる。
インタラクションプラットフォームはエージェントを評価するために常に使用されるが、InfoUI専用に十分なインタラクションプラットフォームがまだ存在しない。
そこで本研究では,新たな拡張性,適応性,親密なインタラクションプラットフォームであるmobile-envを構築し,適切なベンチマークのベースを提供する。
Mobile-Env をベースにした InfoUI タスクセット WikiHow が構築され,構造化テキストベースの環境における LLM のマルチステップインタラクション能力のベンチマークを確立する。
一連のLLMをベースとしたエージェントをタスクセット上でテストし,InfoUIインタラクションにおけるLLMの可能性と課題について考察する。
コミュニティがmobile-envの新しい環境と新しいタスクセットを提供し、より良いテストベンチマークを提供し、対応するドメインの開発を促進することを心から歓迎します。
関連論文リスト
- LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。
LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。
実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文 参考訳(メタデータ) (2024-04-28T16:50:12Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - Comprehensive Cognitive LLM Agent for Smartphone GUI Automation [69.32269322774543]
大規模言語モデル(LLM)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
我々は、包括的環境認識(CEP)と条件付き行動予測(CAP)という2つの新しいアプローチで、包括的包括的アンダーラインAgent(CoCo-Agent)を提案する。
本稿では, AITW と META-GUI ベンチマークにおいて, 現実的なシナリオにおいて有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - Large Language User Interfaces: Voice Interactive User Interfaces powered by LLMs [5.06113628525842]
ユーザとユーザインターフェース(UI)の仲介として機能するフレームワークを提案する。
アノテーションの形でUIコンポーネントのテキストセマンティックマッピングに立つシステムを採用している。
我々のエンジンは、最も適切なアプリケーションを分類し、関連するパラメータを抽出し、その後、ユーザの期待するアクションの正確な予測を実行することができる。
論文 参考訳(メタデータ) (2024-02-07T21:08:49Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z) - Intelligent Virtual Assistants with LLM-based Process Automation [31.275267197246595]
本稿では,高レベルのユーザ要求に基づいて,モバイルアプリ内のマルチステップ操作を自動的に実行可能な,LLMベースの新しい仮想アシスタントを提案する。
このシステムは、指示を解析し、目標を推論し、行動を実行するエンドツーエンドのソリューションを提供することによって、アシスタントの進歩を表す。
論文 参考訳(メタデータ) (2023-12-04T07:51:58Z) - Unified Human-Scene Interaction via Prompted Chain-of-Contacts [61.87652569413429]
HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。
本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一型HSIフレームワークUniHSIを提案する。
論文 参考訳(メタデータ) (2023-09-14T17:59:49Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z) - Enabling Conversational Interaction with Mobile UI using Large Language
Models [15.907868408556885]
自然言語で多様なUIタスクを実行するには、開発者は通常、特定のタスクごとに別々のデータセットとモデルを作成する必要がある。
本稿では,単一言語モデルを用いて,モバイルUIとの多目的対話を実現することの実現可能性について検討する。
論文 参考訳(メタデータ) (2022-09-18T20:58:39Z) - Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task
Feasibility in Interactive Visual Environments [54.405920619915655]
これまで最大数のインタラクティブ環境向けに自然言語コマンドを用いたデータセットであるMoTIF(Iterative Feedback)を用いたモバイルアプリタスクを紹介します。
MoTIFは、満足できないインタラクティブ環境のための自然言語リクエストを最初に含んでいる。
初期実現可能性分類実験を行い、より豊かな視覚言語表現の必要性を検証し、f1スコア37.3まで到達した。
論文 参考訳(メタデータ) (2021-04-17T14:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。