論文の概要: Beyond Training: Enabling Self-Evolution of Agents with MOBIMEM
- arxiv url: http://arxiv.org/abs/2512.15784v1
- Date: Mon, 15 Dec 2025 12:38:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.707578
- Title: Beyond Training: Enabling Self-Evolution of Agents with MOBIMEM
- Title(参考訳): トレーニングを超えて:MOBIMEMでエージェントの自己進化を実現する
- Authors: Zibin Liu, Cheng Zhang, Xi Zhao, Yunfei Feng, Bingyu Bai, Dahu Feng, Erhu Feng, Yubin Xia, Haibo Chen,
- Abstract要約: 大きな言語モデル(LLM)エージェントは、モバイルおよびデスクトップ環境で複雑なタスクを自動化するために、ますますデプロイされる。
現在のモデル中心のエージェントアーキテクチャは、デプロイ後の自己開発に苦労している。
MEMMEMは、モデルの再訓練なしに反復的な自己進化を可能にするメモリ認識エージェントシステムである。
- 参考スコア(独自算出の注目度): 10.20348197254329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) agents are increasingly deployed to automate complex workflows in mobile and desktop environments. However, current model-centric agent architectures struggle to self-evolve post-deployment: improving personalization, capability, and efficiency typically requires continuous model retraining/fine-tuning, which incurs prohibitive computational overheads and suffers from an inherent trade-off between model accuracy and inference efficiency. To enable iterative self-evolution without model retraining, we propose MOBIMEM, a memory-centric agent system. MOBIMEM first introduces three specialized memory primitives to decouple agent evolution from model weights: (1) Profile Memory uses a lightweight distance-graph (DisGraph) structure to align with user preferences, resolving the accuracy-latency trade-off in user profile retrieval; (2) Experience Memory employs multi-level templates to instantiate execution logic for new tasks, ensuring capability generalization; and (3) Action Memory records fine-grained interaction sequences, reducing the reliance on expensive model inference. Building upon this memory architecture, MOBIMEM further integrates a suite of OS-inspired services to orchestrate execution: a scheduler that coordinates parallel sub-task execution and memory operations; an agent record-and-replay (AgentRR) mechanism that enables safe and efficient action reuse; and a context-aware exception handling that ensures graceful recovery from user interruptions and runtime errors. Evaluation on AndroidWorld and top-50 apps shows that MOBIMEM achieves 83.1% profile alignment with 23.83 ms retrieval time (280x faster than GraphRAG baselines), improves task success rates by up to 50.3%, and reduces end-to-end latency by up to 9x on mobile devices.
- Abstract(参考訳): 大きな言語モデル(LLM)エージェントは、モバイルおよびデスクトップ環境で複雑なワークフローを自動化するために、ますますデプロイされる。
パーソナライゼーション、能力、効率性を改善するには、通常、継続的なモデル再訓練/微調整が必要です。
モデル再学習なしに反復的自己進化を可能にするため,メモリ中心のエージェントシステムMOBIMEMを提案する。
MOBIMEMはまず,エージェントの進化をモデルウェイトから切り離すために,3つの特別なメモリプリミティブを導入している。(1) プロファイルメモリは,ユーザの好みに合わせて軽量距離グラフ(DisGraph)構造を用いて,ユーザのプロファイル検索の精度と遅延のトレードオフを解決する。(2) エクスペリエンスメモリは,新しいタスクの実行ロジックをインスタンス化し,機能一般化を保証するためにマルチレベルテンプレートを使用し,(3) アクションメモリは,きめ細かい相互作用シーケンスを記録し,高価なモデル推論への依存を低減している。
並列サブタスクの実行とメモリ操作をコーディネートするスケジューラ、安全かつ効率的なアクション再利用を可能にするエージェントレコード・アンド・リプレイ(AgentRR)機構、ユーザの割り込みと実行時のエラーからの優雅なリカバリを保証するコンテキスト対応例外処理である。
AndroidWorldとトップ50アプリの評価では、MoBIMEMは23.83msの検索時間(GraphRAGベースラインより280倍速い)で83.1%のプロファイルアライメントを実現し、タスク成功率を最大50.3%改善し、モバイルデバイスでのエンドツーエンドのレイテンシを最大9倍削減している。
関連論文リスト
- MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - MAPLE: A Mobile Agent with Persistent Finite State Machines for Structured Task Reasoning [46.18718721121415]
アプリケーションインタラクションをFSM(Finite State Machine)として抽象化する,状態認識型マルチエージェントフレームワークMAPLEを提案する。
それぞれのUI画面を離散状態として、ユーザアクションをトランジションとしてモデル化し、FSMがアプリケーション実行の構造化された表現を提供できるようにします。
MAPLEは、計画、実行、検証、エラー回復、知識保持という4段階のタスク実行に責任を持つ特殊エージェントで構成されている。
論文 参考訳(メタデータ) (2025-05-29T16:08:51Z) - Task Memory Engine: Spatial Memory for Robust Multi-Step LLM Agents [0.0]
大規模言語モデル (LLMs) は、線形で非構造的な文脈に依存するため、多段階の相互作用に影響を及ぼす。
本稿では,既存のLCMを堅牢でリビジョン対応のエージェントに変換するモジュール型メモリコントローラであるTask Memory Engine (TME)を紹介する。
TMEは、フラットなコンテキストをグラフベースの構造に置き換え、一貫性のあるマルチターン推論をサポートする空間記憶フレームワークを実装している。
論文 参考訳(メタデータ) (2025-05-26T02:53:22Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - MOFHEI: Model Optimizing Framework for Fast and Efficient Homomorphically Encrypted Neural Network Inference [0.8388591755871735]
ホモモルフィック暗号化(HE)により、暗号化データ上で機械学習タスクを実行できる。
HEに基づくニューラルネットワーク推論を高速かつ効率的にするためのモデルを最適化するフレームワークであるMOFHEIを提案する。
このフレームワークはLeNet上で最大98%のプルーニング比を実現し,PI実行に必要なHE操作の最大93%を排除した。
論文 参考訳(メタデータ) (2024-12-10T22:44:54Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。