論文の概要: Explore, Select, Derive, and Recall: Augmenting LLM with Human-like
Memory for Mobile Task Automation
- arxiv url: http://arxiv.org/abs/2312.03003v1
- Date: Mon, 4 Dec 2023 06:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 17:38:08.471662
- Title: Explore, Select, Derive, and Recall: Augmenting LLM with Human-like
Memory for Mobile Task Automation
- Title(参考訳): Explore, Select, Derive, and Recall: モバイルタスク自動化のためのヒューマンライクなメモリによるLLMの拡張
- Authors: Sunjae Lee, Junyoung Choi, Jungjae Lee, Hojun Choi, Steven Y. Ko,
Sangeun Oh, Insik Shin
- Abstract要約: MemoDroidは、ユニークなアプリメモリを備えた革新的なモバイルタスクオートマトンである。
モバイルアプリと対話する人間の認知過程をエミュレートする。
学習したタスクを100%精度で様々な状況に適応させ、GPT-4のベースラインと比較してレイテンシとコストを69.22%、77.36%削減できる。
- 参考スコア(独自算出の注目度): 8.936242149838813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of large language models (LLMs) has opened up new opportunities in
the field of mobile task automation. Their superior language understanding and
reasoning capabilities allow users to automate complex and repetitive tasks.
However, due to the inherent unreliability and high operational cost of LLMs,
their practical applicability is quite limited. To address these issues, this
paper introduces MemoDroid, an innovative LLM-based mobile task automator
enhanced with a unique app memory. MemoDroid emulates the cognitive process of
humans interacting with a mobile app -- explore, select, derive, and recall.
This approach allows for a more precise and efficient learning of a task's
procedure by breaking it down into smaller, modular components that can be
re-used, re-arranged, and adapted for various objectives. We implement
MemoDroid using online LLMs services (GPT-3.5 and GPT-4) and evaluate its
performance on 50 unique mobile tasks across 5 widely used mobile apps. The
results indicate that MemoDroid can adapt learned tasks to varying contexts
with 100% accuracy and reduces their latency and cost by 69.22% and 77.36%
compared to a GPT-4 powered baseline.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現により、モバイルタスク自動化の分野で新たな機会が開かれた。
その優れた言語理解と推論能力により、ユーザーは複雑で反復的なタスクを自動化できる。
しかし, LLMの信頼性が低く, 運用コストも高いため, 実用性は非常に限られている。
これらの問題に対処するために,独特なアプリメモリを備えた,革新的なLCMベースのモバイルタスクオートマトンであるMemoDroidを紹介する。
memodroidは、モバイルアプリと対話する人の認知プロセス -- 探索、選択、導出、リコール -- をエミュレートする。
このアプローチは、再使用、再配置、さまざまな目的に適応可能な、より小さくモジュール化されたコンポーネントに分割することで、タスクの手順をより正確で効率的な学習を可能にする。
我々は,オンラインLLMサービス(GPT-3.5およびGPT-4)を用いてMemoDroidを実装し,広く使用されている5つのモバイルアプリで50種類のモバイルタスクのパフォーマンスを評価する。
その結果、MemoDroidは学習したタスクを100%精度で様々な状況に適応させ、GPT-4ベースのベースラインと比較してレイテンシとコストを69.22%、77.36%削減できることがわかった。
関連論文リスト
- Continuously Improving Mobile Manipulation with Autonomous Real-World RL [33.085671103158866]
モバイル操作のための完全に自律的な実世界のRLフレームワークを提案する。
これはタスク関連自律性によって実現され、これはオブジェクトのインタラクションへの探索をガイドし、目標状態付近の停滞を防ぐ。
我々は,Spotロボットがモバイル操作タスクの4つの課題に対して,継続的なパフォーマンス向上を可能にすることを実証した。
論文 参考訳(メタデータ) (2024-09-30T17:59:50Z) - AlignBot: Aligning VLM-powered Customized Task Planning with User Reminders Through Fine-Tuning for Household Robots [44.47999496605951]
AlignBotはVLMを使った家庭用ロボットのタスクプランニングを最適化する新しいフレームワークである。
国内環境では、リマインダーの量、多様性、マルチモーダル性により、タスクプランニングとユーザリマインダーの連携が重大な課題となる。
論文 参考訳(メタデータ) (2024-09-18T12:05:30Z) - GKT: A Novel Guidance-Based Knowledge Transfer Framework For Efficient Cloud-edge Collaboration LLM Deployment [74.40196814292426]
本稿では,新規かつ直感的なガイダンスベース知識伝達(GKT)フレームワークを提案する。
GKTは'teacher'として大きな言語モデルを使用し、ガイダンスプロンプトを生成し、より小さな'student'モデルと組み合わせて応答を確定する。
GSM8Kの最大精度は14.18%、GSM8Kの10.72倍、精度は14.00%、CSQAの7.73倍である。
論文 参考訳(メタデータ) (2024-05-30T02:37:35Z) - Octopus v2: On-device language model for super agent [10.998608318944985]
本研究は,GPT-4の性能を精度とレイテンシの両方で上回る20億のパラメータを持つデバイスモデルを実現するための新しい手法を提案する。
Llama-7BをRAGベースの関数呼び出し機構で比較すると,レイテンシを35倍に向上する。
論文 参考訳(メタデータ) (2024-04-02T09:01:32Z) - When Large Language Model Agents Meet 6G Networks: Perception,
Grounding, and Alignment [100.58938424441027]
モバイル端末とエッジサーバの協調を利用した6GネットワークにおけるAIエージェントの分割学習システムを提案する。
提案システムでは,LLMのための新しいモデルキャッシングアルゴリズムを導入し,コンテキストにおけるモデル利用を改善する。
論文 参考訳(メタデータ) (2024-01-15T15:20:59Z) - Exposing Limitations of Language Model Agents in Sequential-Task
Compositions on the Web [74.76803612807949]
言語モデルエージェント(LMA)は、ミューティステップ決定タスクにおける有望なパラダイムとして登場した。
約束にもかかわらず、現実世界のアプリケーションでの彼らのパフォーマンスはまだ過小評価されている。
既存のLMAはベースタスクで平均94.0%の成功率を達成したが、その性能は構成タスクで平均24.9%に低下した。
論文 参考訳(メタデータ) (2023-11-30T17:50:47Z) - Revolutionizing Mobile Interaction: Enabling a 3 Billion Parameter GPT
LLM on Mobile [0.0]
本稿では, 数十億のパラメータを持つLCMを, ネットワーク接続のないモバイルデバイス上で直接実行できる未来を想定する, LLM推論に対する革新的なアプローチを提案する。
この記事は、30億のパラメータを持つ微調整のGPT LLMを紹介し、4GBのメモリを持つデバイス上でスムーズに動作可能である。
ネイティブコードとモデル量子化技術の統合により、アプリケーションは汎用アシスタントとして機能するだけでなく、テキスト対アクション機能とのシームレスなモバイルインタラクションを促進する。
論文 参考訳(メタデータ) (2023-09-29T16:30:49Z) - AutoDroid: LLM-powered Task Automation in Android [32.241570727243534]
モバイルタスク自動化システムであるAutoDroidを紹介した。
主なコンポーネントは、LLMでUIをブリッジする機能対応UI表現メソッドである。
我々は、メモリ拡張Androidタスク自動化のための新しいベンチマークで、その性能を158の共通タスクで評価した。
論文 参考訳(メタデータ) (2023-08-29T13:02:30Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - Error-Aware Imitation Learning from Teleoperation Data for Mobile
Manipulation [54.31414116478024]
移動操作(MM)では、ロボットは環境内を移動して操作することができる。
本研究では,MMタスクに対する連続的なビジュオモダポリシの学習に模倣学習(IL)を適用する方法について検討する。
論文 参考訳(メタデータ) (2021-12-09T23:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。