論文の概要: M$^2$-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining
- arxiv url: http://arxiv.org/abs/2602.05429v1
- Date: Thu, 05 Feb 2026 08:19:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.837104
- Title: M$^2$-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining
- Title(参考訳): M$^2$-Miner:モバイルGUIエージェントデータマイニングのためのマルチエージェント拡張MCTS
- Authors: Rui Lv, Juncheng Mo, Tianyi Chu, Chen Rao, Hongyi Jing, Jiajie Teng, Jiafu Chen, Shiqi Zhang, Liangzi Ding, Shuo Fang, Huaizhong Lin, Ziqiang Dang, Chenguang Ma, Lei Zhao,
- Abstract要約: M$2$-Minerは、モンテカルロ木探索(MCTS)に基づく低コストで自動化されたモバイルGUIエージェントデータマイニングフレームワークである。
データマイニングの効率化と品質向上のために,InferAgent,OrchestrateAgent,JuiceAgentからなる協調型マルチエージェントフレームワークを提案する。
実験により、マイニングデータを用いて微調整したGUIエージェントが、いくつかの一般的なモバイルGUIベンチマークで最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 13.619889748072934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical User Interface (GUI) agent is pivotal to advancing intelligent human-computer interaction paradigms. Constructing powerful GUI agents necessitates the large-scale annotation of high-quality user-behavior trajectory data (i.e., intent-trajectory pairs) for training. However, manual annotation methods and current GUI agent data mining approaches typically face three critical challenges: high construction cost, poor data quality, and low data richness. To address these issues, we propose M$^2$-Miner, the first low-cost and automated mobile GUI agent data-mining framework based on Monte Carlo Tree Search (MCTS). For better data mining efficiency and quality, we present a collaborative multi-agent framework, comprising InferAgent, OrchestraAgent, and JudgeAgent for guidance, acceleration, and evaluation. To further enhance the efficiency of mining and enrich intent diversity, we design an intent recycling strategy to extract extra valuable interaction trajectories. Additionally, a progressive model-in-the-loop training strategy is introduced to improve the success rate of data mining. Extensive experiments have demonstrated that the GUI agent fine-tuned using our mined data achieves state-of-the-art performance on several commonly used mobile GUI benchmarks. Our work will be released to facilitate the community research.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)エージェントは、インテリジェントなヒューマンコンピュータインタラクションパラダイムの進化に欠かせない。
強力なGUIエージェントを構築するには、訓練のための高品質なユーザ-行動軌跡データ(すなわち意図-軌道ペア)の大規模なアノテーションが必要である。
しかし、手動のアノテーションメソッドと現在のGUIエージェントのデータマイニングアプローチは、一般的に3つの重要な課題に直面している。
これらの問題に対処するために,モンテカルロ木探索(MCTS)に基づく,最初の低コストかつ自動化されたモバイルGUIエージェントデータマイニングフレームワークであるM$^2$-Minerを提案する。
データマイニングの効率化と品質向上のために,InferAgent,OrchestrateAgent,JuiceAgentからなる協調型マルチエージェントフレームワークを提案する。
鉱業の効率をさらに高め,意図の多様性を豊かにするために,付加価値の相互作用軌跡を抽出する意図的リサイクル戦略を設計する。
さらに、データマイニングの成功率を改善するために、プログレッシブ・モデル・イン・ザ・ループのトレーニング戦略を導入する。
大規模な実験により、マイニングデータを用いて微調整されたGUIエージェントが、いくつかの一般的なモバイルGUIベンチマークで最先端のパフォーマンスを達成することが示された。
私たちの仕事は、コミュニティリサーチを促進するためにリリースされます。
関連論文リスト
- Learning with Challenges: Adaptive Difficulty-Aware Data Generation for Mobile GUI Agent Training [10.376682582953046]
MobileGenは、GUIエージェントの機能フロンティアとトレーニングの難しさを一致させる、新しいデータ生成フレームワークである。
GUIエージェントの平均性能を1.57倍改善することで、既存のデータ生成手法を一貫して上回っている。
このことは、効果的なモバイルGUIエージェントトレーニングにおける機能整合データ生成の重要性を強調している。
論文 参考訳(メタデータ) (2026-01-30T10:03:20Z) - MagicGUI-RMS: A Multi-Agent Reward Model System for Self-Evolving GUI Agents via Automated Feedback Reflux [37.49192877577783]
本稿では,適応軌道評価,修正フィードバック,自己進化学習機能を実現するマルチエージェント報酬モデルシステムMagicGUI-RMSを提案する。
大規模な報酬学習を支援するため、バランスの取れた多様な報酬データセットを自動的に生成する構造化データ構築パイプラインを設計する。
実験により、MagicGUI-RMSはタスクの正確性、振る舞いの堅牢性においてかなりの利益をもたらすことが示された。
論文 参考訳(メタデータ) (2026-01-19T13:50:43Z) - LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents [37.871793585090586]
GUIエージェントにおける2つの重要な課題に対処する自己改善フレームワークであるUI-Genieを紹介する。
軌道結果の検証は困難であり、高品質なトレーニングデータはスケーラブルではない。
UI-Genieは複数のGUIエージェントベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-27T17:58:06Z) - GEM: Gaussian Embedding Modeling for Out-of-Distribution Detection in GUI Agents [13.415165482033395]
環境制約に違反したり、GUIエージェントの現在の能力を超えたりするアウト・オブ・ディストリビューション(OOD)命令は、タスクの故障やセキュリティ上の脅威を引き起こす可能性がある。
従来のOOD検出手法は、複雑な埋め込み空間とGUI環境の進化により、この領域でサブ最適化される。
本稿では,その機能境界を反映したGUIエージェントから抽出した入力埋め込み距離にガウス混合モデルを適用する新しい手法であるGEMを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:29:05Z) - TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials [70.06743063375121]
リッチなマルチモーダルWebチュートリアルから学習し,汎用GUIエージェントを構築するTongUIフレームワークを提案する。
我々は、5つのオペレーティングシステムと200以上のアプリケーションにまたがる143Kトラジェクトリデータを含むGUI-Netデータセットを作成する。
我々はGUI-Net上でQwen2.5-VL-3B/7Bモデルを微調整してTongUIエージェントを開発する。
論文 参考訳(メタデータ) (2025-04-17T06:15:56Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。