論文の概要: Explore, Select, Derive, and Recall: Augmenting LLM with Human-like
Memory for Mobile Task Automation
- arxiv url: http://arxiv.org/abs/2312.03003v1
- Date: Mon, 4 Dec 2023 06:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 17:38:08.471662
- Title: Explore, Select, Derive, and Recall: Augmenting LLM with Human-like
Memory for Mobile Task Automation
- Title(参考訳): Explore, Select, Derive, and Recall: モバイルタスク自動化のためのヒューマンライクなメモリによるLLMの拡張
- Authors: Sunjae Lee, Junyoung Choi, Jungjae Lee, Hojun Choi, Steven Y. Ko,
Sangeun Oh, Insik Shin
- Abstract要約: MemoDroidは、ユニークなアプリメモリを備えた革新的なモバイルタスクオートマトンである。
モバイルアプリと対話する人間の認知過程をエミュレートする。
学習したタスクを100%精度で様々な状況に適応させ、GPT-4のベースラインと比較してレイテンシとコストを69.22%、77.36%削減できる。
- 参考スコア(独自算出の注目度): 8.936242149838813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of large language models (LLMs) has opened up new opportunities in
the field of mobile task automation. Their superior language understanding and
reasoning capabilities allow users to automate complex and repetitive tasks.
However, due to the inherent unreliability and high operational cost of LLMs,
their practical applicability is quite limited. To address these issues, this
paper introduces MemoDroid, an innovative LLM-based mobile task automator
enhanced with a unique app memory. MemoDroid emulates the cognitive process of
humans interacting with a mobile app -- explore, select, derive, and recall.
This approach allows for a more precise and efficient learning of a task's
procedure by breaking it down into smaller, modular components that can be
re-used, re-arranged, and adapted for various objectives. We implement
MemoDroid using online LLMs services (GPT-3.5 and GPT-4) and evaluate its
performance on 50 unique mobile tasks across 5 widely used mobile apps. The
results indicate that MemoDroid can adapt learned tasks to varying contexts
with 100% accuracy and reduces their latency and cost by 69.22% and 77.36%
compared to a GPT-4 powered baseline.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現により、モバイルタスク自動化の分野で新たな機会が開かれた。
その優れた言語理解と推論能力により、ユーザーは複雑で反復的なタスクを自動化できる。
しかし, LLMの信頼性が低く, 運用コストも高いため, 実用性は非常に限られている。
これらの問題に対処するために,独特なアプリメモリを備えた,革新的なLCMベースのモバイルタスクオートマトンであるMemoDroidを紹介する。
memodroidは、モバイルアプリと対話する人の認知プロセス -- 探索、選択、導出、リコール -- をエミュレートする。
このアプローチは、再使用、再配置、さまざまな目的に適応可能な、より小さくモジュール化されたコンポーネントに分割することで、タスクの手順をより正確で効率的な学習を可能にする。
我々は,オンラインLLMサービス(GPT-3.5およびGPT-4)を用いてMemoDroidを実装し,広く使用されている5つのモバイルアプリで50種類のモバイルタスクのパフォーマンスを評価する。
その結果、MemoDroidは学習したタスクを100%精度で様々な状況に適応させ、GPT-4ベースのベースラインと比較してレイテンシとコストを69.22%、77.36%削減できることがわかった。
関連論文リスト
- Octopus v2: On-device language model for super agent [10.998608318944985]
本研究は,GPT-4の性能を精度とレイテンシの両方で上回る20億のパラメータを持つデバイスモデルを実現するための新しい手法を提案する。
Llama-7BをRAGベースの関数呼び出し機構で比較すると,レイテンシを35倍に向上する。
論文 参考訳(メタデータ) (2024-04-02T09:01:32Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - When Large Language Model Agents Meet 6G Networks: Perception,
Grounding, and Alignment [100.58938424441027]
モバイル端末とエッジサーバの協調を利用した6GネットワークにおけるAIエージェントの分割学習システムを提案する。
提案システムでは,LLMのための新しいモデルキャッシングアルゴリズムを導入し,コンテキストにおけるモデル利用を改善する。
論文 参考訳(メタデータ) (2024-01-15T15:20:59Z) - GenSim: Generating Robotic Simulation Tasks via Large Language Models [34.79613485106202]
GenSimは、リッチなシミュレーション環境とエキスパートのデモを自動的に生成することを目指している。
既存のベンチマークを10倍から100以上のタスクに拡張するために、GPT4を使用します。
最小限のsim-to-real適応により、GPT4生成したシミュレーションタスクで事前訓練されたマルチタスクポリシーは、現実世界で目に見えないロングホライゾンタスクへのより強力な転送を示す。
論文 参考訳(メタデータ) (2023-10-02T17:23:48Z) - Revolutionizing Mobile Interaction: Enabling a 3 Billion Parameter GPT
LLM on Mobile [0.0]
本稿では, 数十億のパラメータを持つLCMを, ネットワーク接続のないモバイルデバイス上で直接実行できる未来を想定する, LLM推論に対する革新的なアプローチを提案する。
この記事は、30億のパラメータを持つ微調整のGPT LLMを紹介し、4GBのメモリを持つデバイス上でスムーズに動作可能である。
ネイティブコードとモデル量子化技術の統合により、アプリケーションは汎用アシスタントとして機能するだけでなく、テキスト対アクション機能とのシームレスなモバイルインタラクションを促進する。
論文 参考訳(メタデータ) (2023-09-29T16:30:49Z) - AutoDroid: LLM-powered Task Automation in Android [32.241570727243534]
モバイルタスク自動化システムであるAutoDroidを紹介した。
主なコンポーネントは、LLMでUIをブリッジする機能対応UI表現メソッドである。
我々は、メモリ拡張Androidタスク自動化のための新しいベンチマークで、その性能を158の共通タスクで評価した。
論文 参考訳(メタデータ) (2023-08-29T13:02:30Z) - ChatGPT as your Personal Data Scientist [0.9689893038619583]
本稿では,ChatGPTを用いた対話型データサイエンスフレームワークについて紹介する。
データビジュアライゼーション、タスクの定式化、予測エンジニアリング、結果概要と勧告の4つのダイアログ状態を中心に、私たちのモデルが中心になっています。
要約して,会話データ科学の新たな概念が実現可能であることを証明するとともに,複雑なタスクを解く上でLLMが有効であることを示すエンド・ツー・エンド・エンド・システムを開発した。
論文 参考訳(メタデータ) (2023-05-23T04:00:16Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - Multi-Agent Automated Machine Learning [54.14038920246645]
自動機械学習(AutoML)におけるモジュールの共同最適化のためのマルチエージェント自動機械学習(MA2ML)を提案する。
MA2MLはモジュール間の協力を強化するために各エージェントにクレジットを明示的に割り当て、検索効率を向上させるために政治外の学習を取り入れている。
実験により、MA2MLは計算コストの制約の下でImageNet上で最先端のトップ1の精度が得られることが示された。
論文 参考訳(メタデータ) (2022-10-17T13:32:59Z) - Error-Aware Imitation Learning from Teleoperation Data for Mobile
Manipulation [54.31414116478024]
移動操作(MM)では、ロボットは環境内を移動して操作することができる。
本研究では,MMタスクに対する連続的なビジュオモダポリシの学習に模倣学習(IL)を適用する方法について検討する。
論文 参考訳(メタデータ) (2021-12-09T23:54:59Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。