論文の概要: CHOP: Mobile Operating Assistant with Constrained High-frequency Optimized Subtask Planning
- arxiv url: http://arxiv.org/abs/2503.03743v1
- Date: Wed, 05 Mar 2025 18:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:24.202272
- Title: CHOP: Mobile Operating Assistant with Constrained High-frequency Optimized Subtask Planning
- Title(参考訳): CHOP: 制約付き高周波最適化サブタスク計画による移動動作支援
- Authors: Yuqi Zhou, Shuai Wang, Sunhao Dai, Qinglin Jia, Zhaocheng Du, Zhenhua Dong, Jun Xu,
- Abstract要約: 制約付き高周波最適化計画(CHOP)を用いた新しいモバイルアシスタントアーキテクチャを提案する。
提案手法は,人計画サブタスクをベースベクトルとしてGUIシナリオ計画におけるVLMの欠如を克服する。
当社のアーキテクチャを20アプリにわたる英語と中国語のコンテキストで評価し、有効性と効率の両面で大幅に改善したことを示す。
- 参考スコア(独自算出の注目度): 18.826366389246385
- License:
- Abstract: The advancement of visual language models (VLMs) has enhanced mobile device operations, allowing simulated human-like actions to address user requirements. Current VLM-based mobile operating assistants can be structured into three levels: task, subtask, and action. The subtask level, linking high-level goals with low-level executable actions, is crucial for task completion but faces two challenges: ineffective subtasks that lower-level agent cannot execute and inefficient subtasks that fail to contribute to the completion of the higher-level task. These challenges stem from VLM's lack of experience in decomposing subtasks within GUI scenarios in multi-agent architecture. To address these, we propose a new mobile assistant architecture with constrained high-frequency o}ptimized planning (CHOP). Our approach overcomes the VLM's deficiency in GUI scenarios planning by using human-planned subtasks as the basis vector. We evaluate our architecture in both English and Chinese contexts across 20 Apps, demonstrating significant improvements in both effectiveness and efficiency. Our dataset and code is available at https://github.com/Yuqi-Zhou/CHOP
- Abstract(参考訳): 視覚言語モデル(VLM)の進歩により、モバイルデバイス操作が強化され、シミュレーションされた人間のようなアクションがユーザ要求に対処できるようになった。
現在のVLMベースのモバイルオペレーティングシステムは、タスク、サブタスク、アクションの3つのレベルに構成できる。
高レベルの目標と低レベルの実行可能なアクションをリンクするサブタスクレベルは、タスク完了に不可欠であるが、低レベルのエージェントが実行できない非効率なサブタスクと、高レベルのタスクの完了に寄与できない非効率なサブタスクの2つの課題に直面している。
これらの課題は、VLMがマルチエージェントアーキテクチャにおいてGUIシナリオ内でサブタスクを分解する経験を欠いていることに起因している。
そこで本稿では,制約付き高周波o}最適化計画(CHOP)を用いた新しいモバイルアシスタントアーキテクチャを提案する。
提案手法は,人計画サブタスクをベースベクトルとしてGUIシナリオ計画におけるVLMの欠如を克服する。
当社のアーキテクチャを20アプリにわたる英語と中国語のコンテキストで評価し、有効性と効率の両面で大幅に改善したことを示す。
私たちのデータセットとコードはhttps://github.com/Yuqi-Zhou/CHOPで公開されています。
関連論文リスト
- Anticipate & Act : Integrating LLMs and Classical Planning for Efficient Task Execution in Household Environments [16.482992646001996]
我々は,これらの課題を共同で達成する行動列を計算し,家庭内課題を予測するための枠組みを開発する。
今後の課題を考慮しないシステムと比較して,実行時間の31%削減を実証する。
論文 参考訳(メタデータ) (2025-02-04T07:31:55Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - MobA: Multifaceted Memory-Enhanced Adaptive Planning for Efficient Mobile Task Automation [23.026244256950086]
MLLMベースのモバイルアシスタントシステムであるMobAを提案する。
多面的メモリモジュールは、適応性と効率を高めるために包括的なメモリサポートを提供する。
MobBenchとAndroidArenaの実験結果は、MobAが動的GUI環境を処理し、複雑なモバイルタスクを実行する能力を示している。
論文 参考訳(メタデータ) (2024-10-17T16:53:50Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - LoTa-Bench: Benchmarking Language-oriented Task Planners for Embodied
Agents [2.8927500190704567]
大規模言語モデル (LLM) はタスク計画のための代替ソリューションとして最近注目されている。
本稿では,ホームサービス実施エージェントのタスクプランニング性能を定量的に評価するベンチマークシステムを提案する。
論文 参考訳(メタデータ) (2024-02-13T02:28:57Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - ADaPT: As-Needed Decomposition and Planning with Language Models [131.063805299796]
As-Needed Decomposition and Planning for Complex Tasks (ADaPT)について紹介する。
ADaPTは、Large Language Modelsがそれらを実行できない場合、複雑なサブタスクを明示的に計画し、分解する。
以上の結果から,ADaPTは強いベースラインを確立した。
論文 参考訳(メタデータ) (2023-11-08T17:59:15Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。