論文の概要: Mobile-Env: An Evaluation Platform and Benchmark for Interactive Agents
in LLM Era
- arxiv url: http://arxiv.org/abs/2305.08144v2
- Date: Wed, 14 Jun 2023 09:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 00:47:49.978897
- Title: Mobile-Env: An Evaluation Platform and Benchmark for Interactive Agents
in LLM Era
- Title(参考訳): Mobile-Env: LLM時代のインタラクティブエージェントの評価プラットフォームとベンチマーク
- Authors: Danyang Zhang, Lu Chen, Zihan Zhao, Ruisheng Cao, Kai Yu
- Abstract要約: 適切なベンチマークのための基盤を提供するために、新しいインタラクションプラットフォームであるMobile-Envを構築します。
InfoUI タスクセット WikiHow は、構造化テキストベースの環境における LLM のマルチステップインタラクション能力のベンチマークを確立するために構築される。
- 参考スコア(独自算出の注目度): 27.521529196090796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diverse evaluation benchmarks play a crucial role to assess a wide range of
capabilities of large language models (LLM). Although plenty of endeavors have
been dedicated to building valuable benchmarks, there is still little work
aiming at evaluating the capability of LLM in multistep interactive
environments. Noticing that LLM requires a text representation of the
environment observations for interaction, we choose to fill such a blank by
building a novel benchmark based on the information user interface (InfoUI).
InfoUI consists of rich text contents and can be represented in some text
formats, thus is suitable for the assessment of interaction ability of LLM.
Additionally, the complex structures of InfoUI can further raise a challenge
for LLM to understand structured texts rather than plain texts. An interaction
platform is always used to evaluate an agent, however, there is still a lack of
a satisfactory interaction platform dedicated to InfoUI. Consequently, we
propose to build a novel easily-extendable, adaptable, and close-to-reality
interaction platform, Mobile-Env, to provide a base for an appropriate
benchmark. Based on Mobile-Env, an InfoUI task set WikiHow is then built to
establish a benchmark for the multistep interaction capability of LLM in
structured text-based environments. Agents based on a series of LLMs are tested
on the task set to obtain an insight into the potential and challenge of LLM
for InfoUI interaction. It is sincerely welcome that the community contribute
new environments and new task sets for Mobile-Env to provide better test
benchmarks and facilitate the development of the corresponding domains.
- Abstract(参考訳): 様々な評価ベンチマークは、大規模言語モデル(LLM)の幅広い機能を評価する上で重要な役割を果たす。
価値あるベンチマークの構築に多くの取り組みがなされているが、マルチステップ対話環境におけるllmの能力評価を目的とした作業はまだ少ない。
LLMは、インタラクションのための環境観測のテキスト表現を必要とすることに気づき、情報ユーザインタフェース(InfoUI)に基づいた新しいベンチマークを構築することで、そのような空白を埋めることを選択します。
infouiはリッチテキストコンテンツで構成され、いくつかのテキストフォーマットで表現できるため、llmの相互作用能力の評価に適している。
さらに、infouiの複雑な構造は、llmがプレーンテキストではなく構造化テキストを理解することの難しさをさらに高めることができる。
インタラクションプラットフォームはエージェントを評価するために常に使用されるが、InfoUI専用に十分なインタラクションプラットフォームがまだ存在しない。
そこで本研究では,新たな拡張性,適応性,親密なインタラクションプラットフォームであるmobile-envを構築し,適切なベンチマークのベースを提供する。
Mobile-Env をベースにした InfoUI タスクセット WikiHow が構築され,構造化テキストベースの環境における LLM のマルチステップインタラクション能力のベンチマークを確立する。
一連のLLMをベースとしたエージェントをタスクセット上でテストし,InfoUIインタラクションにおけるLLMの可能性と課題について考察する。
コミュニティがmobile-envの新しい環境と新しいタスクセットを提供し、より良いテストベンチマークを提供し、対応するドメインの開発を促進することを心から歓迎します。
関連論文リスト
- AppVLM: A Lightweight Vision Language Model for Online App Control [39.91330570886891]
軽量ビジョン言語モデル(VLM)であるAppVLMを紹介する。
まず、AndroidControlデータセットでオフラインでチューニングします。
そして、AndroidWorld環境からデータを収集することで、ポリシーを洗練します。
論文 参考訳(メタデータ) (2025-02-10T12:32:21Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
大規模なマルチベンチマークWebエージェント実験を初めて実施する。
結果は、OpenAIとAnthropicの最新モデルの大きな相違点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - GUI Agents with Foundation Models: A Comprehensive Survey [91.97447457550703]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。
重要な課題を特定し,今後の研究方向性を提案する。
この調査が(M)LLMベースのGUIエージェントの分野におけるさらなる進歩を促すことを願っている。
論文 参考訳(メタデータ) (2024-11-07T17:28:10Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data [15.801018643716437]
本稿では,大規模視覚言語モデル(LVLM)のGUI理解と対話能力を,データ駆動型アプローチにより向上することを目的とする。
本稿では,Web上のWebページから大規模で粒度の高いトレーニングデータを自動的に生成する汎用データ合成フレームワークEDGEを提案する。
提案手法は,手動アノテーションへの依存を著しく低減し,研究者がWeb上で利用可能な膨大な公開リソースを活用して作業を進めることを可能にする。
論文 参考訳(メタデータ) (2024-10-25T10:46:17Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
SPA-Benchは3つの重要なコントリビューションを提供している。 英語と中国語の両方で、システムとサードパーティアプリをカバーする多様なタスクセットで、日々のルーチンで一般的に使用される機能に焦点を当てている。
複数の次元にまたがってエージェントのパフォーマンスを自動的に評価する新しい評価パイプラインは、タスク完了とリソース消費に関連する7つの指標を含んでいる。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。