論文の概要: AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents
- arxiv url: http://arxiv.org/abs/2410.24024v1
- Date: Thu, 31 Oct 2024 15:25:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:02:01.981087
- Title: AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents
- Title(参考訳): AndroidLab: Android Autonomous Agentのトレーニングとシステムベンチマーク
- Authors: Yifan Xu, Xiao Liu, Xueqiao Sun, Siyi Cheng, Hao Yu, Hanyu Lai, Shudan Zhang, Dan Zhang, Jie Tang, Yuxiao Dong,
- Abstract要約: 我々は,AndroidLabをシステマティックなAndroidエージェントフレームワークとして提案する。
異なるモダリティ、アクションスペース、再現可能なベンチマークを備えた運用環境を含む。
大規模言語モデル(LLM)とマルチモーダルモデル(LMM)の両方を同一のアクション空間でサポートする。
- 参考スコア(独自算出の注目度): 32.571194718225996
- License:
- Abstract: Autonomous agents have become increasingly important for interacting with the real world. Android agents, in particular, have been recently a frequently-mentioned interaction method. However, existing studies for training and evaluating Android agents lack systematic research on both open-source and closed-source models. In this work, we propose AndroidLab as a systematic Android agent framework. It includes an operation environment with different modalities, action space, and a reproducible benchmark. It supports both large language models (LLMs) and multimodal models (LMMs) in the same action space. AndroidLab benchmark includes predefined Android virtual devices and 138 tasks across nine apps built on these devices. By using the AndroidLab environment, we develop an Android Instruction dataset and train six open-source LLMs and LMMs, lifting the average success rates from 4.59\% to 21.50\% for LLMs and from 1.93\% to 13.28\% for LMMs. AndroidLab is open-sourced and publicly available at \url{https://github.com/THUDM/Android-Lab}.
- Abstract(参考訳): 自律的なエージェントは、現実世界と対話する上でますます重要になっている。
特にAndroidエージェントは、最近頻繁に発生するインタラクションメソッドである。
しかし、既存のAndroidエージェントのトレーニングと評価のための研究は、オープンソースモデルとクローズドソースモデルの両方について体系的な研究を欠いている。
本研究では,AndroidLabをシステマティックなAndroidエージェントフレームワークとして提案する。
異なるモダリティ、アクションスペース、再現可能なベンチマークを備えた運用環境を含む。
大規模言語モデル(LLM)とマルチモーダルモデル(LMM)の両方を同一のアクション空間でサポートする。
AndroidLabベンチマークには、事前に定義されたAndroid仮想デバイスと、これらのデバイス上に構築された9つのアプリにまたがる138のタスクが含まれている。
AndroidLab環境を使用することで、Android Instructionデータセットを開発し、6つのオープンソースLLMとLMMをトレーニングし、平均成功率は4.59\%から21.50\%、LMMは1.93\%から13.28\%に引き上げる。
AndroidLabはオープンソースであり、 \url{https://github.com/THUDM/Android-Lab}で公開されている。
関連論文リスト
- MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics? [33.573056018368504]
本研究では,Multimodal LLM for Robotic (MMRo)ベンチマークを評価するための最初のベンチマークを紹介する。
我々は、MLLMがロボットの中央処理ユニットとして持つべき4つの重要な能力知覚、タスク計画、視覚的推論、安全性の測定を識別する。
以上の結果から,現在のMLLMはロボットの認知コアとして機能するほど信頼できないことが示唆された。
論文 参考訳(メタデータ) (2024-06-28T07:09:06Z) - AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents [5.044046039265116]
私たちは、20の現実世界のAndroidアプリに116のプログラムタスクに対して報酬信号を提供する、完全に機能するAndroid環境であるAndroidWorldを紹介します。
静的テストセットを提供する既存のインタラクティブ環境とは異なり、AndroidWorldはパラメータ化され自然言語で表現されるタスクを動的に構築する。
私たちの最高のエージェントは、AndroidWorldのタスクの30.6%を完了できます。
論文 参考訳(メタデータ) (2024-05-23T13:48:54Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - AutoDroid: LLM-powered Task Automation in Android [32.241570727243534]
モバイルタスク自動化システムであるAutoDroidを紹介した。
主なコンポーネントは、LLMでUIをブリッジする機能対応UI表現メソッドである。
我々は、メモリ拡張Androidタスク自動化のための新しいベンチマークで、その性能を158の共通タスクで評価した。
論文 参考訳(メタデータ) (2023-08-29T13:02:30Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - DroidBot-GPT: GPT-powered UI Automation for Android [11.980924738484994]
DroidBot-GPTは、GPTに似た大規模言語モデル(LLM)を使用して、Androidモバイルアプリケーションとのインタラクションを自動化するツールである。
DroidBot-GPTは、所望のタスクを自然言語で記述するので、タスクを完了させるためにアプリをナビゲートするアクションを自動的に生成して実行することができる。
論文 参考訳(メタデータ) (2023-04-14T11:31:56Z) - BLOOM: A 176B-Parameter Open-Access Multilingual Language Model [264.96498474333697]
大規模言語モデル(LLM)は、いくつかのデモや自然言語命令に基づいて新しいタスクを実行できることが示されている。
BLOOMは、176Bパラメータのオープンアクセス言語モデルであり、数百人の研究者の協力により設計・構築されている。
BLOOMは、RATSコーパスでトレーニングされたデコーダのみのトランスフォーマー言語モデルである。
論文 参考訳(メタデータ) (2022-11-09T18:48:09Z) - AndroidEnv: A Reinforcement Learning Platform for Android [41.572096255032946]
AndroidEnvは、Androidエコシステム上に構築された強化学習(RL)研究のためのオープンソースプラットフォームである。
RLエージェントは、ユニバーサルタッチスクリーンインターフェースを通じて、人間が一般的に使用するさまざまなアプリやサービスと対話することができる。
エージェントはAndroidデバイスの現実的なシミュレーションを訓練するため、それらは実際のデバイスにデプロイされる可能性がある。
論文 参考訳(メタデータ) (2021-05-27T15:20:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。