論文の概要: AndroidGen: Building an Android Language Agent under Data Scarcity
- arxiv url: http://arxiv.org/abs/2504.19298v1
- Date: Sun, 27 Apr 2025 16:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.222031
- Title: AndroidGen: Building an Android Language Agent under Data Scarcity
- Title(参考訳): AndroidGen: Data ScarcityでAndroid言語エージェントを構築する
- Authors: Hanyu Lai, Junjie Gao, Xiao Liu, Yifan Xu, Shudan Zhang, Yuxiao Dong, Jie Tang,
- Abstract要約: データ不足下でLLMベースのエージェントの能力を高めるために,AndroidGenというフレームワークを開発した。
我々は、AndroidGenを活用して、人間のタスクに与えられたトラジェクトリを収集し、これらのトラジェクトリ上でオープンソースのLLMをトレーニングし、手動でラベル付けされたトラジェクトリを使わずにオープンソースのモバイルエージェントを開発する。
われわれはAndroidGenをAndroidWorld、AitW、および様々な人気アプリケーションで広く評価し、その改善と今後の改善の可能性を明らかにした。
- 参考スコア(独自算出の注目度): 32.277219971739726
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models have opened up a world of possibilities for various NLP tasks, sparking optimism for the future. Despite their potential, LLMs have yet to be widely used as agents on real mobile devices. The main challenge is the need for high-quality data sources. Time constraints and labor intensity often hinder human annotation. On the other hand, existing LLMs exhibit inadequate completion rates and need a robust data filtration strategy. Given these challenges, we develop a framework called AndroidGen to enhance the capabilities of LLM-based agents under data scarcity. In addition, we leverage AndroidGen to collect trajectories given human tasks and train open-source LLMs on these trajectories to develop an open-source mobile agent without manually labeled trajectories. We extensively evaluate AndroidGen with AndroidWorld, AitW, and various popular applications, demonstrating its improvements and revealing potential areas for future improvement. Code, model, and data are available at https://github.com/THUDM/AndroidGen.
- Abstract(参考訳): 大規模言語モデルは、様々なNLPタスクの可能性を開き、将来への楽観を喚起している。
その可能性にもかかわらず、LLMは実際のモバイルデバイスのエージェントとして広く使われていない。
主な課題は、高品質なデータソースの必要性である。
時間制約と労働力の強さは、しばしば人間のアノテーションを妨げる。
一方、既存のLLMは不適切な完成率を示し、ロバストなデータフィルタリング戦略を必要とする。
これらの課題から,データ不足下でLLMベースのエージェントの能力を高めるために,AndroidGenというフレームワークを開発した。
さらに、AndroidGenを活用して、与えられたタスクのトラジェクトリを収集し、これらのトラジェクトリ上でオープンソースLLMをトレーニングし、手動でラベル付けされたトラジェクトリを使わずにオープンソースのモバイルエージェントを開発する。
われわれはAndroidGenをAndroidWorld、AitW、および様々な人気アプリケーションで広く評価し、その改善と今後の改善の可能性を明らかにした。
コード、モデル、データはhttps://github.com/THUDM/AndroidGenで入手できる。
関連論文リスト
- LLMs in Mobile Apps: Practices, Challenges, and Opportunities [4.104646810514711]
AI技術の統合は、ソフトウェア開発でますます人気が高まっている。
大規模言語モデル(LLM)と生成AIの台頭により、開発者は、クローズドソースプロバイダから豊富な高品質のオープンソースモデルとAPIにアクセスできるようになる。
論文 参考訳(メタデータ) (2025-02-21T19:53:43Z) - AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents [32.571194718225996]
我々は,AndroidLabをシステマティックなAndroidエージェントフレームワークとして提案する。
異なるモダリティ、アクションスペース、再現可能なベンチマークを備えた運用環境を含む。
大規模言語モデル(LLM)とマルチモーダルモデル(LMM)の両方を同一のアクション空間でサポートする。
論文 参考訳(メタデータ) (2024-10-31T15:25:20Z) - Large Language Model Performance Benchmarking on Mobile Platforms: A Thorough Evaluation [10.817783356090027]
大規模言語モデル(LLM)は、私たちの仕事や日常生活のあらゆる側面にますます統合されています。
ユーザのプライバシに関する懸念が高まり、これらのモデルがローカルに展開される傾向が強まっている。
急速に普及しているアプリケーションとして、市販のモバイルデバイスのパフォーマンスを懸念しています。
論文 参考訳(メタデータ) (2024-10-04T17:14:59Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。
これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。
我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文 参考訳(メタデータ) (2024-05-29T17:59:20Z) - Large Language Models (LLMs) Assisted Wireless Network Deployment in Urban Settings [0.21847754147782888]
大きな言語モデル(LLM)は、言語理解と人間に似たテキスト生成に革命をもたらした。
本稿では,6G(第6世代)無線通信技術におけるLCMの電力利用技術について検討する。
無線通信におけるネットワーク展開にLLMを利用する新しい強化学習(RL)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-22T05:19:51Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。
我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。
我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - SoTaNa: The Open-Source Software Development Assistant [81.86136560157266]
SoTaNaはオープンソースのソフトウェア開発アシスタントだ。
ソフトウェア工学の分野のための高品質な命令ベースのデータを生成する。
オープンソースの基盤モデルであるLLaMAを強化するためにパラメータ効率のよい微調整アプローチを採用している。
論文 参考訳(メタデータ) (2023-08-25T14:56:21Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - AndroidEnv: A Reinforcement Learning Platform for Android [41.572096255032946]
AndroidEnvは、Androidエコシステム上に構築された強化学習(RL)研究のためのオープンソースプラットフォームである。
RLエージェントは、ユニバーサルタッチスクリーンインターフェースを通じて、人間が一般的に使用するさまざまなアプリやサービスと対話することができる。
エージェントはAndroidデバイスの現実的なシミュレーションを訓練するため、それらは実際のデバイスにデプロイされる可能性がある。
論文 参考訳(メタデータ) (2021-05-27T15:20:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。