Fugu-MT 論文翻訳(概要): SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation

論文の概要: SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation

arxiv url: http://arxiv.org/abs/2410.15164v1
Date: Sat, 19 Oct 2024 17:28:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.941947
Title: SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation
Title（参考訳）: SPA-Bench:SmartPhoneエージェント評価のための総合ベンチマーク
Authors: Jingxuan Chen, Derek Yuen, Bin Xie, Yuhao Yang, Gongwei Chen, Zhihao Wu, Li Yixing, Xurui Zhou, Weiwen Liu, Shuai Wang, Kaiwen Zhou, Rui Shao, Liqiang Nie, Yasheng Wang, Jianye Hao, Jun Wang, Kun Shao,
Abstract要約: We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。 SPA-Benchは3つの重要なコントリビューションを提供している。英語と中国語の両方で、システムとサードパーティアプリをカバーする多様なタスクセットで、日々のルーチンで一般的に使用される機能に焦点を当てている。複数の次元にまたがってエージェントのパフォーマンスを自動的に評価する新しい評価パイプラインは、タスク完了とリソース消費に関連する7つの指標を含んでいる。
参考スコア（独自算出の注目度）: 89.24729958546168
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Smartphone agents are increasingly important for helping users control devices efficiently, with (Multimodal) Large Language Model (MLLM)-based approaches emerging as key contenders. Fairly comparing these agents is essential but challenging, requiring a varied task scope, the integration of agents with different implementations, and a generalisable evaluation pipeline to assess their strengths and weaknesses. In this paper, we present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agents in an interactive environment that simulates real-world conditions. SPA-Bench offers three key contributions: (1) A diverse set of tasks covering system and third-party apps in both English and Chinese, focusing on features commonly used in daily routines; (2) A plug-and-play framework enabling real-time agent interaction with Android devices, integrating over ten agents with the flexibility to add more; (3) A novel evaluation pipeline that automatically assesses agent performance across multiple dimensions, encompassing seven metrics related to task completion and resource consumption. Our extensive experiments across tasks and agents reveal challenges like interpreting mobile user interfaces, action grounding, memory retention, and execution costs. We propose future research directions to ease these difficulties, moving closer to real-world smartphone agent applications.
Abstract（参考訳）: スマートフォンエージェントは、(Multimodal) Large Language Model (MLLM)ベースのアプローチが重要候補として浮上する中で、デバイスを効率的に制御する上でますます重要になっている。これらのエージェントを公平に比較することは不可欠だが困難であり、様々なタスク範囲、異なる実装によるエージェントの統合、そしてそれらの強みと弱点を評価するための一般的な評価パイプラインが必要である。本稿では,実環境をシミュレートする対話環境において,(M)LLMベースのエージェントを評価するために設計された総合的なSmartPhone Agent BenchmarkであるSPA-Benchを提案する。 SPA-Benchは,(1)日常のルーチンで一般的に使用される機能に着目した,多種多様なタスク群と,(2)Androidデバイスとのリアルタイムエージェントインタラクションを実現するためのプラグイン・アンド・プレイフレームワーク,(3)タスク完了とリソース消費に関連する7つの指標を含む,複数次元のエージェントパフォーマンスを自動的に評価する新たな評価パイプライン,の3つの重要な貢献を提供している。タスクやエージェントにわたる広範な実験では、モバイルユーザインターフェースの解釈、アクショングラウンド、メモリ保持、実行コストといった課題が明らかになりました。我々は、これらの困難を緩和し、現実世界のスマートフォンエージェントアプリケーションに近づき、今後の研究の方向性を提案する。

関連論文リスト

TongSIM: A General Platform for Simulating Intelligent Machines [59.27575233453533]
エボディード・インテリジェンス(Embodied Intelligence)は、現実的なシミュレートされた環境における訓練エージェントに焦点を当てる。 TongSIMは、エンボディエージェントのトレーニングと評価のための高忠実で汎用的なプラットフォームである。
論文参考訳（メタデータ） (2025-12-23T10:00:43Z)
VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications [20.065087936770215]
実世界の環境に根ざした多目的対話型タスクのエージェントを評価するベンチマークであるVitaBenchを紹介する。 VitaBenchは、66のツールを含む、これまでで最も複雑な生命維持シミュレーション環境を持つエージェントを提示する。総合評価の結果,最も先進的なモデルでさえ,クロスシナリオタスクにおいて30%の成功率しか達成できないことがわかった。
論文参考訳（メタデータ） (2025-09-30T16:33:49Z)
OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.57043903478257]
アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
論文参考訳（メタデータ） (2025-08-06T14:33:45Z)
Mobile-Bench-v2: A More Realistic and Comprehensive Benchmark for VLM-based Mobile Agents [33.899782380901314]
VLMベースのモバイルエージェントは、スマートフォンのGUIやXML構造化テキストと対話できることから、ますます人気が高まっている。既存のオンラインベンチマークは、動的環境変化による安定した報酬信号を得るのに苦労している。 Mobile-Bench-v2は共通タスク分割を含み、オフラインのマルチパス評価によってエージェントがステップ報酬を得る能力を評価する。
論文参考訳（メタデータ） (2025-05-17T07:58:34Z)
Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions [12.218102495632937]
大規模言語モデル(LLM)は、高度な理解と計画能力のため、ツール呼び出しのエージェントとして強力な可能性を示している。ベンチマークでは、各テストケースは複数の相互関連ミッションから構成される。また,エージェント決定の精度と効率を動的決定木を用いて評価する手法を提案する。
論文参考訳（メタデータ） (2025-04-03T14:21:33Z)
Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [57.677161006710065]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文参考訳（メタデータ） (2024-11-04T11:50:58Z)
Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。 Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文参考訳（メタデータ） (2024-10-10T17:43:51Z)
AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文参考訳（メタデータ） (2024-10-04T08:24:15Z)
AppAgent v2: Advanced Agent for Flexible Mobile Interactions [46.789563920416626]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文参考訳（メタデータ） (2024-08-05T06:31:39Z)
Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。 IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文参考訳（メタデータ） (2024-07-09T17:33:24Z)
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文参考訳（メタデータ） (2024-07-01T17:55:04Z)
MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents [7.4568642040547894]
大規模言語モデル(LLM)ベースのモバイルエージェントは、携帯電話のグラフィカルユーザインタフェース(GUI)と直接対話できることから、ますます人気が高まっている。学術部門と産業部門の両方で有望な見通しにもかかわらず、既存のモバイルエージェントのパフォーマンスをベンチマークすることに注力する研究はほとんどない。我々は、広範囲な手動テストの負担を軽減するために、効率的でユーザフレンドリなベンチマークMobileAgentBenchを提案する。
論文参考訳（メタデータ） (2024-06-12T13:14:50Z)
Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文参考訳（メタデータ） (2024-04-25T14:56:32Z)
WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。 WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。 BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文参考訳（メタデータ） (2024-03-12T14:58:45Z)
AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文参考訳（メタデータ） (2024-02-21T04:11:28Z)
AppAgent: Multimodal Agents as Smartphone Users [23.318925173980446]
我々のフレームワークは、エージェントが簡易なアクション空間を通じてスマートフォンアプリケーションを操作できるようにする。エージェントは、自律的な探索または人間のデモを観察して、新しいアプリをナビゲートし、使用することを学ぶ。エージェントの実用性を実証するため、10種類のアプリケーションで50以上のタスクを広範囲にテストした。
論文参考訳（メタデータ） (2023-12-21T11:52:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。