論文の概要: Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control
- arxiv url: http://arxiv.org/abs/2510.14388v1
- Date: Thu, 16 Oct 2025 07:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.762813
- Title: Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control
- Title(参考訳): Hi-Agent: モバイルデバイス制御のための階層型ビジョンランゲージエージェント
- Authors: Zhe Wu, Hongjin Lu, Junliang Xing, Changhao Zhang, Yin Zhu, Yuhao Yang, Yuheng Jing, Kai Li, Kun Shao, Jianye Hao, Jun Wang, Yuanchun Shi,
- Abstract要約: モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentを紹介する。
Hi-Agentは高レベルの推論モデルと、共同最適化された低レベルのアクションモデルを備えている。
Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで、新しいState-Of-The-Art(SOTA)87.9%タスクの成功率を達成した。
- 参考スコア(独自算出の注目度): 72.43808515668947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building agents that autonomously operate mobile devices has attracted increasing attention. While Vision-Language Models (VLMs) show promise, most existing approaches rely on direct state-to-action mappings, which lack structured reasoning and planning, and thus generalize poorly to novel tasks or unseen UI layouts. We introduce Hi-Agent, a trainable hierarchical vision-language agent for mobile control, featuring a high-level reasoning model and a low-level action model that are jointly optimized. For efficient training, we reformulate multi-step decision-making as a sequence of single-step subgoals and propose a foresight advantage function, which leverages execution feedback from the low-level model to guide high-level optimization. This design alleviates the path explosion issue encountered by Group Relative Policy Optimization (GRPO) in long-horizon tasks and enables stable, critic-free joint training. Hi-Agent achieves a new State-Of-The-Art (SOTA) 87.9% task success rate on the Android-in-the-Wild (AitW) benchmark, significantly outperforming prior methods across three paradigms: prompt-based (AppAgent: 17.7%), supervised (Filtered BC: 54.5%), and reinforcement learning-based (DigiRL: 71.9%). It also demonstrates competitive zero-shot generalization on the ScreenSpot-v2 benchmark. On the more challenging AndroidWorld benchmark, Hi-Agent also scales effectively with larger backbones, showing strong adaptability in high-complexity mobile control scenarios.
- Abstract(参考訳): モバイルデバイスを自律的に運用するエージェントの構築が注目を集めている。
VLM(Vision-Language Models)は将来性を示すが、既存のほとんどのアプローチは、構造化された推論と計画が欠如しており、新しいタスクや見当たらないUIレイアウトに乏しい、直接状態から行動へのマッピングに依存している。
モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentについて紹介する。
効率的なトレーニングのために,複数ステップの意思決定を1段階のサブゴールのシーケンスとして再構成し,低レベルのモデルからの実行フィードバックを利用して高レベルの最適化を導くフォレスト・アドバンテージ関数を提案する。
この設計は,グループ相対政策最適化(GRPO)が長時間の作業で直面する経路爆発問題を緩和し,安定的で批判のない共同訓練を可能にする。
Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで87.9%のタスク成功率を達成し、プロンプトベース(AppAgent: 17.7%)、教師付き(Filtered BC: 54.5%)、強化学習ベース(DigiRL: 71.9%)の3つのパラダイムで先行メソッドを著しく上回っている。
またScreenSpot-v2ベンチマークでは、競合するゼロショットの一般化も示している。
より困難なAndroidWorldベンチマークでは、Hi-Agentはより大きなバックボーンで効果的にスケールし、高複雑さのモバイルコントロールシナリオに強い適応性を示す。
関連論文リスト
- OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis [70.39500621448383]
オープンワールドのモバイル操作タスクは、オープンエンドの命令や環境への一般化が必要なため、依然として課題である。
本稿では,多視点のシーンフレームとエージェント状態を維持した新しいマルチモーダルエージェントアーキテクチャを提案する。
我々は,グローバルなシーン理解,ロボットの状態追跡,マルチモーダルアクション生成を統一モデルで実現した,モバイルマニピュレータのための基礎モデルであるOWMM-VLMについて紹介する。
論文 参考訳(メタデータ) (2025-06-04T17:57:44Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - MobileIPL: Enhancing Mobile Agents Thinking Process via Iterative Preference Learning [45.46445208254837]
The Chain of Action-Planning Thoughts (CoaT) paradigm has been shown to improve the reasoning performance of VLM-based mobile agent in GUI task。
対話型サンプリングによりCoaTツリーを構築し,ルールベース報酬を用いて葉ノードをスコアし,フィードバックをバックプロパゲートして思考レベル直接選好最適化(T-DPO)のペアを導出する反復選好学習(IPL)を提案する。
論文 参考訳(メタデータ) (2025-05-18T08:28:05Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。