Fugu-MT 論文翻訳(概要): MobA: Multifaceted Memory-Enhanced Adaptive Planning for Efficient Mobile Task Automation

論文の概要: MobA: Multifaceted Memory-Enhanced Adaptive Planning for Efficient Mobile Task Automation

arxiv url: http://arxiv.org/abs/2410.13757v2
Date: Sun, 02 Mar 2025 07:34:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-04 15:02:13.382133
Title: MobA: Multifaceted Memory-Enhanced Adaptive Planning for Efficient Mobile Task Automation
Title（参考訳）: MobA: 効率的なモバイルタスク自動化のための多面的メモリ拡張適応計画
Authors: Zichen Zhu, Hao Tang, Yansi Li, Dingye Liu, Hongshen Xu, Kunyao Lan, Danyang Zhang, Yixuan Jiang, Hao Zhou, Chenrun Wang, Situo Zhang, Liangtai Sun, Yixiao Wang, Yuheng Sun, Lu Chen, Kai Yu,
Abstract要約: MLLMベースのモバイルアシスタントシステムであるMobAを提案する。多面的メモリモジュールは、適応性と効率を高めるために包括的なメモリサポートを提供する。 MobBenchとAndroidArenaの実験結果は、MobAが動的GUI環境を処理し、複雑なモバイルタスクを実行する能力を示している。
参考スコア（独自算出の注目度）: 23.026244256950086
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Existing Multimodal Large Language Model (MLLM)-based agents face significant challenges in handling complex GUI (Graphical User Interface) interactions on devices. These challenges arise from the dynamic and structured nature of GUI environments, which integrate text, images, and spatial relationships, as well as the variability in action spaces across different pages and tasks. To address these limitations, we propose MobA, a novel MLLM-based mobile assistant system. MobA introduces an adaptive planning module that incorporates a reflection mechanism for error recovery and dynamically adjusts plans to align with the real environment contexts and action module's execution capacity. Additionally, a multifaceted memory module provides comprehensive memory support to enhance adaptability and efficiency. We also present MobBench, a dataset designed for complex mobile interactions. Experimental results on MobBench and AndroidArena demonstrate MobA's ability to handle dynamic GUI environments and perform complex mobile task.
Abstract（参考訳）: 既存のMLLM(Multimodal Large Language Model)ベースのエージェントは、デバイス上で複雑なGUI(Graphical User Interface)インタラクションを扱う上で大きな課題に直面している。これらの課題は、テキスト、画像、空間的関係を統合したGUI環境の動的で構造化された性質と、異なるページやタスクにわたるアクション空間のばらつきから生じる。これらの制約に対処するため,MLLMベースのモバイルアシスタントシステムであるMobAを提案する。 MobAは、エラー回復のためのリフレクション機構を組み込んだアダプティブ計画モジュールを導入し、実際の環境コンテキストとアクションモジュールの実行能力に合わせて計画を動的に調整する。さらに、多面的メモリモジュールは、適応性と効率を高めるために包括的なメモリサポートを提供する。複雑なモバイルインタラクション用に設計されたデータセットであるMobBenchについても紹介する。 MobBenchとAndroidArenaの実験結果は、MobAが動的GUI環境を処理し、複雑なモバイルタスクを実行する能力を示している。

関連論文リスト

MobiVerse: Scaling Urban Mobility Simulation with Hybrid Lightweight Domain-Specific Generator and Large Language Models [11.90100976089832]
モビリティシミュレーションのギャップを埋めるハイブリッドフレームワークMobiVerseを提案する。ロサンゼルスのウェストウッドでケーススタディを行い、効率よくスケジュールを動的に生成した。その結果,本手法は行動リアリズムを高めつつ,計算効率を向上することを示す。
論文参考訳（メタデータ） (2025-06-26T21:46:18Z)
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
Adaptive Orchestration of Modular Generative Information Access Systems [59.102816309859584]
将来のモジュラー生成情報アクセスシステムのアーキテクチャは、単に強力なコンポーネントを組み立てるだけでなく、自己組織化システムを実現するだろう、と我々は主張する。この観点は、IRコミュニティに適応的で自己最適化的で将来的なアーキテクチャを開発するためのモジュラーシステム設計を再考するよう促す。
論文参考訳（メタデータ） (2025-04-24T11:35:43Z)
Mobile-MMLU: A Mobile Intelligence Language Understanding Benchmark [45.28023118459497]
モバイルインテリジェンスに適した大規模ベンチマークデータセットであるMobile-MMLUを紹介する。 80のモバイル関連分野にわたる16,186の質問で構成され、現実的なモバイルシナリオでLLMのパフォーマンスを評価するように設計されている。挑戦的なサブセットであるMobile-MMLU-Proは、MMLU-Proと同じようなサイズで高度な評価を提供するが、我々の標準のフルセットよりもはるかに難しい。
論文参考訳（メタデータ） (2025-03-26T17:59:56Z)
Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。 Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文参考訳（メタデータ） (2025-01-20T20:35:46Z)
SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。 SPA-Benchは3つの重要なコントリビューションを提供している。英語と中国語の両方で、システムとサードパーティアプリをカバーする多様なタスクセットで、日々のルーチンで一般的に使用される機能に焦点を当てている。複数の次元にまたがってエージェントのパフォーマンスを自動的に評価する新しい評価パイプラインは、タスク完了とリソース消費に関連する7つの指標を含んでいる。
論文参考訳（メタデータ） (2024-10-19T17:28:48Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
AppAgent v2: Advanced Agent for Flexible Mobile Interactions [46.789563920416626]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文参考訳（メタデータ） (2024-08-05T06:31:39Z)
MobileExperts: A Dynamic Tool-Enabled Agent Team in Mobile Devices [17.702068044185086]
本稿では,ツールの定式化とマルチエージェントコラボレーションを初めて導入するMobileExpertsを紹介する。我々は,専門家同士の協調関係を確立するための二重層計画機構を開発する。実験の結果,MobileExpertsはすべてのインテリジェンスレベルにおいて優れた性能を示し,推論コストの22%削減を実現している。
論文参考訳（メタデータ） (2024-07-04T13:12:19Z)
Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文参考訳（メタデータ） (2024-06-03T05:50:00Z)
Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文参考訳（メタデータ） (2024-04-25T14:56:32Z)
MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。 MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文参考訳（メタデータ） (2024-02-01T02:43:20Z)
Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。 Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文参考訳（メタデータ） (2024-01-29T13:46:37Z)
MobileAgent: enhancing mobile control via human-machine interaction and SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文参考訳（メタデータ） (2024-01-04T03:44:42Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete Representations [25.630268570049708]
MoConVQは、スケーラブルな離散表現を活用する物理ベースのモーションコントロールのための新しい統合フレームワークである。提案手法は,数十時間の動作例にまたがる大規模非構造データセットから,効果的に動作埋め込みを学習する。
論文参考訳（メタデータ） (2023-10-16T09:09:02Z)
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。 Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。 PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文参考訳（メタデータ） (2023-05-03T20:11:22Z)
Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion [68.45737688496654]
本稿では,マスク間相互作用とマスク伝搬を分離するモジュール型対話型VOSフレームワークを提案する。提案手法は,フレーム間インタラクションを少なくしつつ,現在の最先端アルゴリズムよりも優れることを示す。
論文参考訳（メタデータ） (2021-03-14T14:39:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。