論文の概要: K^2-Agent: Co-Evolving Know-What and Know-How for Hierarchical Mobile Device Control
- arxiv url: http://arxiv.org/abs/2603.00676v1
- Date: Sat, 28 Feb 2026 14:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.318785
- Title: K^2-Agent: Co-Evolving Know-What and Know-How for Hierarchical Mobile Device Control
- Title(参考訳): K^2-Agent:階層型モバイルデバイス制御のためのノウハウとノウハウの共進化
- Authors: Zhe Wu, Donglin Mo, Hongjin Lu, Junliang Xing, Jianheng Liu, Yuheng Jing, Kai Li, Kun Shao, Jianye Hao, Yuanchun Shi,
- Abstract要約: K2-Agentは、計画と実行のための宣言的(何)および手続き的(どのように)知識を知り、共進化させることによって、人間のような認知をモデル化する階層的なフレームワークである。
挑戦的なAndroidWorldベンチマークでは、K2-Agentは生とオープンソースのバックボーンのみを使用して76.1%の成功率を達成した。
- 参考スコア(独自算出の注目度): 73.50217471850658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing mobile device control agents often perform poorly when solving complex tasks requiring long-horizon planning and precise operations, typically due to a lack of relevant task experience or unfamiliarity with skill execution. We propose K2-Agent, a hierarchical framework that models human-like cognition by separating and co-evolving declarative (knowing what) and procedural (knowing how) knowledge for planning and execution. K2-Agent's high level reasoner is bootstrapped from a single demonstration per task and runs a Summarize-Reflect-Locate-Revise (SRLR) loop to distill and iteratively refine task-level declarative knowledge through self-evolution. The low-level executor is trained with our curriculum-guided Group Relative Policy Optimization (C-GRPO), which (i) constructs a balanced sample pool using decoupled reward signals and (ii) employs dynamic demonstration injection to guide the model in autonomously generating successful trajectories for training. On the challenging AndroidWorld benchmark, K2-Agent achieves a 76.1% success rate using only raw screenshots and open-source backbones. Furthermore, K2-Agent shows powerful dual generalization: its high-level declarative knowledge transfers across diverse base models, while its low-level procedural skills achieve competitive performance on unseen tasks in ScreenSpot-v2 and Android-in-the-Wild (AitW).
- Abstract(参考訳): 既存のモバイルデバイス制御エージェントは、長い水平計画と正確な操作を必要とする複雑なタスクを解く際には、通常、関連するタスク経験の欠如や、スキル実行に精通していないため、しばしばパフォーマンスが良くない。
K2-Agentは、宣言的(何を知るか)と手続き的(どのように知るかを知るか)の知識を分離・共進化させることにより、人間のような認知をモデル化する階層的なフレームワークである。
K2-Agentのハイレベル推論器は、タスク毎の1つのデモからブートストラップされ、自己進化を通じてタスクレベルの宣言的知識を蒸留および反復的に洗練するために、Summarize-Reflect-Locate-Revise (SRLR)ループを実行する。
低レベルの執行者は、カリキュラム誘導グループ相対政策最適化(C-GRPO)で訓練される。
一 疎結合報酬信号を用いてバランスの取れたサンプルプールを構築すること。
(II) ダイナミック・デモインジェクションを用いて, 自律的に軌道を自動生成し, 訓練を行う。
挑戦的なAndroidWorldベンチマークでは、K2-Agentは生のスクリーンショットとオープンソースのバックボーンのみを使用して76.1%の成功率を達成した。
さらにK2-Agentは、多様なベースモデルにまたがる高いレベルの宣言的知識伝達と、ScreenSpot-v2とAndroid-in-the-Wild(AitW)の未確認タスクにおける低レベルの手続き的スキルという、強力な2つの一般化を示している。
関連論文リスト
- Lemon Agent Technical Report [12.663220335253529]
Lemon Agentは、新しく提案されたAgentCortexフレームワーク上に構築されたマルチエージェントオーケストレータ・ワーカシステムである。
システムには階層的な自己適応型スケジューリング機構が組み込まれており,オーケストレータ層とワーカ層の両方で動作する。
この2層アーキテクチャにより,グローバルタスクコーディネートとローカルタスク実行の相乗的バランスを実現する。
論文 参考訳(メタデータ) (2026-02-06T10:09:49Z) - Offline Discovery of Interpretable Skills from Multi-Task Trajectories [8.119611773942562]
オフラインスキル発見と階層的模倣のための3段階のエンドツーエンド学習フレームワークであるLOKIを紹介する。
LOKIは、挑戦的なD4RL Kitchenベンチマークで高い成功率を獲得し、標準のHILベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-01T05:03:58Z) - Mobile-Agent-RAG: Driving Smart Multi-Agent Coordination with Contextual Knowledge Empowerment for Long-Horizon Mobile Automation [57.12284831164602]
モバイルエージェントは膨大な可能性を示しているが、現在のSoTA(State-of-the-art)エージェントは、現実世界、長期的、クロスアプリケーションタスクに不適切な成功率を示す。
本稿では,新しい階層型マルチエージェントフレームワークであるMobile-Agent-RAGを提案する。
論文 参考訳(メタデータ) (2025-11-15T15:22:42Z) - Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control [72.43808515668947]
モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentを紹介する。
Hi-Agentは高レベルの推論モデルと、共同最適化された低レベルのアクションモデルを備えている。
Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで、新しいState-Of-The-Art(SOTA)87.9%タスクの成功率を達成した。
論文 参考訳(メタデータ) (2025-10-16T07:38:21Z) - Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - MobileSteward: Integrating Multiple App-Oriented Agents with Self-Evolution to Automate Cross-App Instructions [45.7564684180131]
携帯電話のエージェントは、携帯電話で日々のタスクを自動化するのを助けることができる。
既存のプロシージャ指向エージェントは、クロスアプリ命令で苦労する。
我々はMobileStewardという自己進化型マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-24T03:12:45Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。