論文の概要: Explore, Select, Derive, and Recall: Augmenting LLM with Human-like Memory for Mobile Task Automation
- arxiv url: http://arxiv.org/abs/2312.03003v3
- Date: Wed, 16 Oct 2024 08:15:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:39:38.743737
- Title: Explore, Select, Derive, and Recall: Augmenting LLM with Human-like Memory for Mobile Task Automation
- Title(参考訳): Explore, Select, Derive, and Recall: モバイルタスク自動化のためのヒューマンライクなメモリによるLLMの拡張
- Authors: Sunjae Lee, Junyoung Choi, Jungjae Lee, Munim Hasan Wasi, Hojun Choi, Steven Y. Ko, Sangeun Oh, Insik Shin,
- Abstract要約: 本稿では,ヒューマンライクなアプリメモリを備えたモバイルタスク・オートマトンであるMobileGPTを紹介する。
MobileGPTは、モバイルアプリと対話する人間の認知プロセスをエミュレートする。
我々は,オンラインLLMサービス(GPT-3.5およびGPT-4)を用いてMobileGPTを実装し,その性能を18のモバイルアプリで185タスクのデータセット上で評価した。
- 参考スコア(独自算出の注目度): 8.158152532619576
- License:
- Abstract: The advent of large language models (LLMs) has opened up new opportunities in the field of mobile task automation. Their superior language understanding and reasoning capabilities allow users to automate complex and repetitive tasks. However, due to the inherent unreliability and high operational cost of LLMs, their practical applicability is quite limited. To address these issues, this paper introduces MobileGPT, an innovative LLM-based mobile task automator equipped with a human-like app memory. MobileGPT emulates the cognitive process of humans interacting with a mobile app -- explore, select, derive, and recall. This approach allows for a more precise and efficient learning of a task's procedure by breaking it down into smaller, modular sub-tasks that can be re-used, re-arranged, and adapted for various objectives. We implement MobileGPT using online LLMs services (GPT-3.5 and GPT-4) and evaluate its performance on a dataset of 185 tasks across 18 mobile apps. The results indicate that MobileGPT can automate and learn new tasks with 82.7% accuracy, and is able to adapt them to different contexts with near perfect (98.75%) accuracy while reducing both latency and cost by 62.5% and 68.8%, respectively, compared to the GPT-4 powered baseline.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現により、モバイルタスク自動化の分野で新たな機会が開かれた。
その優れた言語理解と推論能力により、ユーザーは複雑で反復的なタスクを自動化できる。
しかし, LLMの信頼性が低く, 運用コストも高いため, 実用性は非常に限られている。
これらの問題に対処するために,本論文では,人間ライクなアプリメモリを備えた,革新的なLCMベースのモバイルタスクオートマトンであるMobileGPTを紹介する。
MobileGPTは、モバイルアプリと対話する人間の認知プロセスをエミュレートする。
このアプローチは、タスクの手順をより正確かつ効率的な学習を可能にし、それをより小さくモジュール化されたサブタスクに分解し、様々な目的に再使用、再配置、適応することができる。
我々は,オンラインLLMサービス(GPT-3.5およびGPT-4)を用いてMobileGPTを実装し,その性能を18のモバイルアプリで185タスクのデータセット上で評価した。
その結果、MobileGPTは82.7%の精度で新しいタスクの自動化と学習が可能であり、GPT-4のベースラインに比べてレイテンシとコストを62.5%、コストを68.8%削減しながら、ほぼ完全(98.75%)の精度で異なるコンテキストに適応できることがわかった。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation [27.984521240600493]
大きな言語モデル(LLM)は、モバイルUIエージェントにエキサイティングな新しい進歩をもたらした。
必要なモデルサイズを減らす方法の1つは、小さなドメイン固有のモデルをカスタマイズすることです。
本稿では,UIタスクの自動化問題をコード生成問題に変換することを提案する。
論文 参考訳(メタデータ) (2024-12-24T02:54:56Z) - Continuously Improving Mobile Manipulation with Autonomous Real-World RL [33.085671103158866]
モバイル操作のための完全に自律的な実世界のRLフレームワークを提案する。
これはタスク関連自律性によって実現され、これはオブジェクトのインタラクションへの探索をガイドし、目標状態付近の停滞を防ぐ。
我々は,Spotロボットがモバイル操作タスクの4つの課題に対して,継続的なパフォーマンス向上を可能にすることを実証した。
論文 参考訳(メタデータ) (2024-09-30T17:59:50Z) - AlignBot: Aligning VLM-powered Customized Task Planning with User Reminders Through Fine-Tuning for Household Robots [44.47999496605951]
AlignBotはVLMを使った家庭用ロボットのタスクプランニングを最適化する新しいフレームワークである。
国内環境では、リマインダーの量、多様性、マルチモーダル性により、タスクプランニングとユーザリマインダーの連携が重大な課題となる。
論文 参考訳(メタデータ) (2024-09-18T12:05:30Z) - GKT: A Novel Guidance-Based Knowledge Transfer Framework For Efficient Cloud-edge Collaboration LLM Deployment [74.40196814292426]
本稿では,新規かつ直感的なガイダンスベース知識伝達(GKT)フレームワークを提案する。
GKTは'teacher'として大きな言語モデルを使用し、ガイダンスプロンプトを生成し、より小さな'student'モデルと組み合わせて応答を確定する。
GSM8Kの最大精度は14.18%、GSM8Kの10.72倍、精度は14.00%、CSQAの7.73倍である。
論文 参考訳(メタデータ) (2024-05-30T02:37:35Z) - Octopus v2: On-device language model for super agent [10.998608318944985]
本研究は,GPT-4の性能を精度とレイテンシの両方で上回る20億のパラメータを持つデバイスモデルを実現するための新しい手法を提案する。
Llama-7BをRAGベースの関数呼び出し機構で比較すると,レイテンシを35倍に向上する。
論文 参考訳(メタデータ) (2024-04-02T09:01:32Z) - AutoDroid: LLM-powered Task Automation in Android [32.241570727243534]
モバイルタスク自動化システムであるAutoDroidを紹介した。
主なコンポーネントは、LLMでUIをブリッジする機能対応UI表現メソッドである。
我々は、メモリ拡張Androidタスク自動化のための新しいベンチマークで、その性能を158の共通タスクで評価した。
論文 参考訳(メタデータ) (2023-08-29T13:02:30Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - Error-Aware Imitation Learning from Teleoperation Data for Mobile
Manipulation [54.31414116478024]
移動操作(MM)では、ロボットは環境内を移動して操作することができる。
本研究では,MMタスクに対する連続的なビジュオモダポリシの学習に模倣学習(IL)を適用する方法について検討する。
論文 参考訳(メタデータ) (2021-12-09T23:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。