論文の概要: Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents
- arxiv url: http://arxiv.org/abs/2407.00993v1
- Date: Mon, 1 Jul 2024 06:10:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 00:36:18.688548
- Title: Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents
- Title(参考訳): Mobile-Bench: LLMベースのモバイルエージェントの評価ベンチマーク
- Authors: Shihan Deng, Weikai Xu, Hongda Sun, Wei Liu, Tao Tan, Jianfeng Liu, Ang Li, Jian Luan, Bin Wang, Rui Yan, Shuo Shang,
- Abstract要約: 大規模言語モデル(LLM)は人間とコンピュータの相互作用においてホットスポットとなっている。
Mobile-Benchは、LLMベースのモバイルエージェントの能力を評価するための新しいベンチマークである。
- 参考スコア(独自算出の注目度): 46.81304373693033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the remarkable advancements of large language models (LLMs), LLM-based agents have become a research hotspot in human-computer interaction. However, there is a scarcity of benchmarks available for LLM-based mobile agents. Benchmarking these agents generally faces three main challenges: (1) The inefficiency of UI-only operations imposes limitations to task evaluation. (2) Specific instructions within a singular application lack adequacy for assessing the multi-dimensional reasoning and decision-making capacities of LLM mobile agents. (3) Current evaluation metrics are insufficient to accurately assess the process of sequential actions. To this end, we propose Mobile-Bench, a novel benchmark for evaluating the capabilities of LLM-based mobile agents. First, we expand conventional UI operations by incorporating 103 collected APIs to accelerate the efficiency of task completion. Subsequently, we collect evaluation data by combining real user queries with augmentation from LLMs. To better evaluate different levels of planning capabilities for mobile agents, our data is categorized into three distinct groups: SAST, SAMT, and MAMT, reflecting varying levels of task complexity. Mobile-Bench comprises 832 data entries, with more than 200 tasks specifically designed to evaluate multi-APP collaboration scenarios. Furthermore, we introduce a more accurate evaluation metric, named CheckPoint, to assess whether LLM-based mobile agents reach essential points during their planning and reasoning steps.
- Abstract(参考訳): 大規模言語モデル(LLM)の顕著な進歩により、LLMベースのエージェントは人間とコンピュータの相互作用においてホットスポットとなっている。
しかし、LLMベースのモバイルエージェントにはベンチマークが不足している。
これらのエージェントのベンチマークは、一般的に3つの大きな課題に直面している。 1) UIのみの操作の非効率性は、タスク評価に制限を課します。
2) LLM移動エージェントの多次元的推論と意思決定能力の評価には, 特定のアプリケーション内での具体的な指示が欠如している。
3) 逐次行動の過程を正確に評価するには,現在の評価基準が不十分である。
そこで本研究では,LLMを用いたモバイルエージェントの性能評価のための新しいベンチマークであるMobile-Benchを提案する。
まず,103個のAPIを組み込んでタスク完了の効率化を図ることで,従来のUI操作を拡張した。
その後、実ユーザクエリとLLMからの拡張を組み合わせた評価データを収集する。
SAST, SAMT, MAMTの3つのグループに分類し, タスクの複雑さのレベルを反映する。
Mobile-Benchは832のデータエントリで構成されており、マルチアプリケーションコラボレーションシナリオを評価するために特別に設計された200以上のタスクがある。
さらに,より正確な評価基準であるCheckPointを導入し,LCMをベースとしたモバイルエージェントが,計画と推論の段階において必須点に達するかどうかを評価する。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - BenTo: Benchmark Task Reduction with In-Context Transferability [32.561978389905434]
本稿では,大規模言語モデル(LLM)のベンチマークに使用するタスクを効率的に削減する方法を検討する。
In-context Learning (ICL) による2つのタスク間の伝達可能性を推定する実用的な指標を提案する。
論文 参考訳(メタデータ) (2024-10-17T17:41:15Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Using Large Language Models to Understand Telecom Standards [35.343893798039765]
大きな言語モデル(LLM)は、関連する情報へのより高速なアクセスを提供する。
質問応答(QA)アシスタントとして使用される最先端のLCMの性能を評価する。
その結果,LLMはテレコム技術文書の信頼できる参照ツールとして利用できることがわかった。
論文 参考訳(メタデータ) (2024-04-02T09:54:51Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Do LLMs Understand User Preferences? Evaluating LLMs On User Rating
Prediction [15.793007223588672]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法で新しいタスクに一般化する際、例外的な機能を示した。
我々は,2億5000万から540Bのパラメータを多種多様なサイズで検討し,その性能をゼロショット,少数ショット,微調整のシナリオで評価した。
論文 参考訳(メタデータ) (2023-05-10T21:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。