論文の概要: ReachAgent: Enhancing Mobile Agent via Page Reaching and Operation
- arxiv url: http://arxiv.org/abs/2502.02955v1
- Date: Wed, 05 Feb 2025 07:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 16:28:51.004243
- Title: ReachAgent: Enhancing Mobile Agent via Page Reaching and Operation
- Title(参考訳): ReachAgent: ページの取得と操作によるモバイルエージェントの強化
- Authors: Qinzhuo Wu, Wei Liu, Jian Luan, Bin Wang,
- Abstract要約: タスクが与えられたら、モバイルAIエージェントは、複数のステップでモバイルデバイスと対話し、タスクを解決するGUIフローを形成することができる。
この問題に対処するため、MobileReachというトレーニングデータセットを構築しました。
タスク補完能力の向上に焦点を当てた2段階フレームワークであるReachAgentを提案する。
- 参考スコア(独自算出の注目度): 11.931584529573176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, mobile AI agents have gained increasing attention. Given a task, mobile AI agents can interact with mobile devices in multiple steps and finally form a GUI flow that solves the task. However, existing agents tend to focus on most task-relevant elements at each step, leading to local optimal solutions and ignoring the overall GUI flow. To address this issue, we constructed a training dataset called MobileReach, which breaks the task into page reaching and operation subtasks. Furthermore, we propose ReachAgent, a two-stage framework that focuses on improving its task-completion abilities. It utilizes the page reaching and page operation subtasks, along with reward-based preference GUI flows, to further enhance the agent. Experimental results show that ReachAgent significantly improves the IoU Acc and Text Acc by 7.12% and 7.69% on the step-level and 4.72% and 4.63% on the task-level compared to the SOTA agent. Our data and code will be released upon acceptance.
- Abstract(参考訳): 近年、モバイルAIエージェントが注目を集めている。
タスクが与えられたら、モバイルAIエージェントは複数のステップでモバイルデバイスと対話し、最終的にタスクを解決するGUIフローを形成することができる。
しかし、既存のエージェントは各ステップでほとんどのタスク関連要素にフォーカスする傾向にあり、ローカルな最適ソリューションと全体的なGUIフローを無視します。
この問題に対処するため、MobileReachというトレーニングデータセットを構築しました。
さらに,タスク補完能力の向上に焦点を当てた2段階フレームワークであるReachAgentを提案する。
ページリーチとページ操作のサブタスクと報酬ベースのGUIフローを利用し、エージェントをさらに強化する。
実験の結果、IoU AccとテキストAccはステップレベルで7.12%、タスクレベルでは4.72%、タスクレベルでは4.63%改善した。
私たちのデータとコードは受け入れ次第リリースされます。
関連論文リスト
- Iterative Trajectory Exploration for Multimodal Agents [69.32855772335624]
本研究では,マルチモーダルエージェント,すなわちSPORTのオンライン自己探索手法を提案する。
Sportは、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントを通じて動作する。
GTAとGAIAのベンチマークでは、Sport Agentは6.41%と3.64%の改善を達成している。
論文 参考訳(メタデータ) (2025-04-30T12:01:27Z) - Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment [14.326779061712404]
V-Droidは、Large Language Modelsをバリデーションとして使用するモバイルタスク自動化エージェントである。
V-Droidは、いくつかの公開モバイルタスク自動化ベンチマークにまたがって、最先端のタスク成功率を設定する。
V-Droidは1ステップあたり0.7秒という驚くほど低レイテンシを実現している。
論文 参考訳(メタデータ) (2025-03-20T08:25:00Z) - Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration [53.54951412651823]
Mobile-Agent-Vは、ビデオガイダンスを活用して、モバイル自動化のためのリッチで費用対効果の高い運用知識を提供するフレームワークである。
Mobile-Agent-Vはスライディングウィンドウ戦略を統合し、ビデオエージェントとディープリフレクションエージェントを組み込んで、アクションがユーザの指示と一致することを保証する。
その結果,Mobile-Agent-Vは既存のフレームワークに比べて30%の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-24T12:51:23Z) - CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation [70.3224918173672]
CowPilotは、自律的および人間とエージェントの協調的なWebナビゲーションをサポートするフレームワークである。
エージェントが次のステップを提案することによって、人間が実行しなければならないステップの数を減らすと同時に、ユーザが一時停止、拒否、代替アクションを取ることができる。
CowPilotは、Webサイト間でのデータ収集とエージェント評価のための便利なツールとして機能する。
論文 参考訳(メタデータ) (2025-01-28T00:56:53Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - ClickAgent: Enhancing UI Location Capabilities of Autonomous Agents [0.0]
ClickAgentは、自律エージェントを構築するための新しいフレームワークである。
ClickAgentでは、MLLMが推論とアクションプランニングを処理し、別のUIロケーションモデルが画面上の関連するUI要素を識別する。
本評価は,Androidスマートフォンエミュレータと実際のAndroidスマートフォンの両方で実施し,タスク成功率をエージェント性能測定の指標として用いた。
論文 参考訳(メタデータ) (2024-10-09T14:49:02Z) - MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents [7.4568642040547894]
大規模言語モデル(LLM)ベースのモバイルエージェントは、携帯電話のグラフィカルユーザインタフェース(GUI)と直接対話できることから、ますます人気が高まっている。
学術部門と産業部門の両方で有望な見通しにもかかわらず、既存のモバイルエージェントのパフォーマンスをベンチマークすることに注力する研究はほとんどない。
我々は、広範囲な手動テストの負担を軽減するために、効率的でユーザフレンドリなベンチマークMobileAgentBenchを提案する。
論文 参考訳(メタデータ) (2024-06-12T13:14:50Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文 参考訳(メタデータ) (2024-01-29T13:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。