Fugu-MT 論文翻訳(概要): Explore, Select, Derive, and Recall: Augmenting LLM with Human-like Memory for Mobile Task Automation

論文の概要: Explore, Select, Derive, and Recall: Augmenting LLM with Human-like Memory for Mobile Task Automation

arxiv url: http://arxiv.org/abs/2312.03003v1
Date: Mon, 4 Dec 2023 06:13:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 17:38:08.471662
Title: Explore, Select, Derive, and Recall: Augmenting LLM with Human-like Memory for Mobile Task Automation
Title（参考訳）: Explore, Select, Derive, and Recall: モバイルタスク自動化のためのヒューマンライクなメモリによるLLMの拡張
Authors: Sunjae Lee, Junyoung Choi, Jungjae Lee, Hojun Choi, Steven Y. Ko, Sangeun Oh, Insik Shin
Abstract要約: MemoDroidは、ユニークなアプリメモリを備えた革新的なモバイルタスクオートマトンである。モバイルアプリと対話する人間の認知過程をエミュレートする。学習したタスクを100%精度で様々な状況に適応させ、GPT-4のベースラインと比較してレイテンシとコストを69.22%、77.36%削減できる。
参考スコア（独自算出の注目度）: 8.936242149838813
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The advent of large language models (LLMs) has opened up new opportunities in the field of mobile task automation. Their superior language understanding and reasoning capabilities allow users to automate complex and repetitive tasks. However, due to the inherent unreliability and high operational cost of LLMs, their practical applicability is quite limited. To address these issues, this paper introduces MemoDroid, an innovative LLM-based mobile task automator enhanced with a unique app memory. MemoDroid emulates the cognitive process of humans interacting with a mobile app -- explore, select, derive, and recall. This approach allows for a more precise and efficient learning of a task's procedure by breaking it down into smaller, modular components that can be re-used, re-arranged, and adapted for various objectives. We implement MemoDroid using online LLMs services (GPT-3.5 and GPT-4) and evaluate its performance on 50 unique mobile tasks across 5 widely used mobile apps. The results indicate that MemoDroid can adapt learned tasks to varying contexts with 100% accuracy and reduces their latency and cost by 69.22% and 77.36% compared to a GPT-4 powered baseline.
Abstract（参考訳）: 大規模言語モデル(LLM)の出現により、モバイルタスク自動化の分野で新たな機会が開かれた。その優れた言語理解と推論能力により、ユーザーは複雑で反復的なタスクを自動化できる。しかし, LLMの信頼性が低く, 運用コストも高いため, 実用性は非常に限られている。これらの問題に対処するために,独特なアプリメモリを備えた,革新的なLCMベースのモバイルタスクオートマトンであるMemoDroidを紹介する。 memodroidは、モバイルアプリと対話する人の認知プロセス -- 探索、選択、導出、リコール -- をエミュレートする。このアプローチは、再使用、再配置、さまざまな目的に適応可能な、より小さくモジュール化されたコンポーネントに分割することで、タスクの手順をより正確で効率的な学習を可能にする。我々は,オンラインLLMサービス(GPT-3.5およびGPT-4)を用いてMemoDroidを実装し,広く使用されている5つのモバイルアプリで50種類のモバイルタスクのパフォーマンスを評価する。その結果、MemoDroidは学習したタスクを100%精度で様々な状況に適応させ、GPT-4ベースのベースラインと比較してレイテンシとコストを69.22%、77.36%削減できることがわかった。

関連論文リスト

Mobile-MMLU: A Mobile Intelligence Language Understanding Benchmark [45.28023118459497]
モバイルインテリジェンスに適した大規模ベンチマークデータセットであるMobile-MMLUを紹介する。 80のモバイル関連分野にわたる16,186の質問で構成され、現実的なモバイルシナリオでLLMのパフォーマンスを評価するように設計されている。挑戦的なサブセットであるMobile-MMLU-Proは、MMLU-Proと同じようなサイズで高度な評価を提供するが、我々の標準のフルセットよりもはるかに難しい。
論文参考訳（メタデータ） (2025-03-26T17:59:56Z)
EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments [11.97783742296183]
Embodied Mobile Manipulation in Open Environments (EMMOE) を導入する。 EMMOEは、より多様な評価のための3つの新しいメトリクスとともに、ハイレベルで低レベルな実施タスクを統一されたフレームワークにシームレスに統合する。さらに,DPO(Direct Optimization Preference)と軽量ナビゲーションおよび操作モデル,複数エラー検出機構を備えた高度なエージェントシステムであるHomieBotを設計した。
論文参考訳（メタデータ） (2025-03-11T16:42:36Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。 Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文参考訳（メタデータ） (2025-01-20T20:35:46Z)
Continuously Improving Mobile Manipulation with Autonomous Real-World RL [33.085671103158866]
モバイル操作のための完全に自律的な実世界のRLフレームワークを提案する。これはタスク関連自律性によって実現され、これはオブジェクトのインタラクションへの探索をガイドし、目標状態付近の停滞を防ぐ。我々は,Spotロボットがモバイル操作タスクの4つの課題に対して,継続的なパフォーマンス向上を可能にすることを実証した。
論文参考訳（メタデータ） (2024-09-30T17:59:50Z)
AlignBot: Aligning VLM-powered Customized Task Planning with User Reminders Through Fine-Tuning for Household Robots [44.47999496605951]
AlignBotはVLMを使った家庭用ロボットのタスクプランニングを最適化する新しいフレームワークである。国内環境では、リマインダーの量、多様性、マルチモーダル性により、タスクプランニングとユーザリマインダーの連携が重大な課題となる。
論文参考訳（メタデータ） (2024-09-18T12:05:30Z)
GKT: A Novel Guidance-Based Knowledge Transfer Framework For Efficient Cloud-edge Collaboration LLM Deployment [74.40196814292426]
本稿では,新規かつ直感的なガイダンスベース知識伝達(GKT)フレームワークを提案する。 GKTは'teacher'として大きな言語モデルを使用し、ガイダンスプロンプトを生成し、より小さな'student'モデルと組み合わせて応答を確定する。 GSM8Kの最大精度は14.18%、GSM8Kの10.72倍、精度は14.00%、CSQAの7.73倍である。
論文参考訳（メタデータ） (2024-05-30T02:37:35Z)
Octopus v2: On-device language model for super agent [10.998608318944985]
本研究は,GPT-4の性能を精度とレイテンシの両方で上回る20億のパラメータを持つデバイスモデルを実現するための新しい手法を提案する。 Llama-7BをRAGベースの関数呼び出し機構で比較すると,レイテンシを35倍に向上する。
論文参考訳（メタデータ） (2024-04-02T09:01:32Z)
When Large Language Model Agents Meet 6G Networks: Perception, Grounding, and Alignment [100.58938424441027]
モバイル端末とエッジサーバの協調を利用した6GネットワークにおけるAIエージェントの分割学習システムを提案する。提案システムでは,LLMのための新しいモデルキャッシングアルゴリズムを導入し,コンテキストにおけるモデル利用を改善する。
論文参考訳（メタデータ） (2024-01-15T15:20:59Z)
Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web [74.76803612807949]
言語モデルエージェント(LMA)は、ミューティステップ決定タスクにおける有望なパラダイムとして登場した。約束にもかかわらず、現実世界のアプリケーションでの彼らのパフォーマンスはまだ過小評価されている。既存のLMAはベースタスクで平均94.0%の成功率を達成したが、その性能は構成タスクで平均24.9%に低下した。
論文参考訳（メタデータ） (2023-11-30T17:50:47Z)
Revolutionizing Mobile Interaction: Enabling a 3 Billion Parameter GPT LLM on Mobile [0.0]
本稿では, 数十億のパラメータを持つLCMを, ネットワーク接続のないモバイルデバイス上で直接実行できる未来を想定する, LLM推論に対する革新的なアプローチを提案する。この記事は、30億のパラメータを持つ微調整のGPT LLMを紹介し、4GBのメモリを持つデバイス上でスムーズに動作可能である。ネイティブコードとモデル量子化技術の統合により、アプリケーションは汎用アシスタントとして機能するだけでなく、テキスト対アクション機能とのシームレスなモバイルインタラクションを促進する。
論文参考訳（メタデータ） (2023-09-29T16:30:49Z)
AutoDroid: LLM-powered Task Automation in Android [32.241570727243534]
モバイルタスク自動化システムであるAutoDroidを紹介した。主なコンポーネントは、LLMでUIをブリッジする機能対応UI表現メソッドである。我々は、メモリ拡張Androidタスク自動化のための新しいベンチマークで、その性能を158の共通タスクで評価した。
論文参考訳（メタデータ） (2023-08-29T13:02:30Z)
AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文参考訳（メタデータ） (2023-05-04T02:09:43Z)
Error-Aware Imitation Learning from Teleoperation Data for Mobile Manipulation [54.31414116478024]
移動操作(MM)では、ロボットは環境内を移動して操作することができる。本研究では,MMタスクに対する連続的なビジュオモダポリシの学習に模倣学習(IL)を適用する方法について検討する。
論文参考訳（メタデータ） (2021-12-09T23:54:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。