論文の概要: Enhance Mobile Agents Thinking Process Via Iterative Preference Learning
- arxiv url: http://arxiv.org/abs/2505.12299v2
- Date: Tue, 27 May 2025 07:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.554126
- Title: Enhance Mobile Agents Thinking Process Via Iterative Preference Learning
- Title(参考訳): 反復的選好学習による移動エージェントの思考プロセスの強化
- Authors: Kun Huang, Weikai Xu, Yuxuan Liu, Quandong Wang, Pengzhi Gao, Wei Liu, Jian Luan, Bin Wang, Bo An,
- Abstract要約: The Chain of Action-Planning Thoughts (CoaT) paradigm has been shown to improve the reasoning performance of VLM-based mobile agent in GUI task。
対話型サンプリングによりCoaTツリーを構築し,ルールベース報酬を用いて葉ノードをスコアし,フィードバックをバックプロパゲートして思考レベル直接選好最適化(T-DPO)のペアを導出する反復選好学習(IPL)を提案する。
- 参考スコア(独自算出の注目度): 34.84933520172181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Chain of Action-Planning Thoughts (CoaT) paradigm has been shown to improve the reasoning performance of VLM-based mobile agents in GUI tasks. However, the scarcity of diverse CoaT trajectories limits the expressiveness and generalization ability of such agents. While self-training is commonly employed to address data scarcity, existing approaches either overlook the correctness of intermediate reasoning steps or depend on expensive process-level annotations to construct process reward models (PRM). To address the above problems, we propose an Iterative Preference Learning (IPL) that constructs a CoaT-tree through interative sampling, scores leaf nodes using rule-based reward, and backpropagates feedback to derive Thinking-level Direct Preference Optimization (T-DPO) pairs. To prevent overfitting during warm-up supervised fine-tuning, we further introduce a three-stage instruction evolution, which leverages GPT-4o to generate diverse Q\&A pairs based on real mobile UI screenshots, enhancing both generality and layout understanding. Experiments on three standard Mobile GUI-agent benchmarks demonstrate that our agent MobileIPL outperforms strong baselines, including continual pretraining models such as OS-ATLAS and UI-TARS. It achieves state-of-the-art performance across three standard Mobile GUI-Agents benchmarks and shows strong generalization to out-of-domain scenarios.
- Abstract(参考訳): The Chain of Action-Planning Thoughts (CoaT) paradigm has been shown to improve the reasoning performance of VLM-based mobile agent in GUI task。
しかし、多様なCoaT軌道の不足は、これらの剤の表現性と一般化能力を制限している。
自己学習はデータ不足に対処するために一般的に用いられるが、既存のアプローチは中間的推論ステップの正しさを見落としているか、プロセス報酬モデル(PRM)を構築するための高価なプロセスレベルのアノテーションに依存している。
上記の問題に対処するため,対話型サンプリングによりCoaTツリーを構築し,ルールベース報酬を用いて葉ノードをスコアし,フィードバックをバックプロパゲートして思考レベル直接選好最適化(T-DPO)ペアを導出する反復選好学習(IPL)を提案する。
GPT-4oを利用して、実際のモバイルUIスクリーンショットに基づいて様々なQ&Aペアを生成することで、汎用性とレイアウト理解の両面を向上する。
3つの標準のMobile GUI-agentベンチマークの実験により、我々のエージェントMobileIPLはOS-ATLASやUI-TARSのような連続的な事前学習モデルを含む強力なベースラインよりも優れていることが示された。
3つの標準モバイルGUI-Agentsベンチマークで最先端のパフォーマンスを実現し、ドメイン外シナリオへの強力な一般化を示している。
関連論文リスト
- Enhancing Visual Grounding for GUI Agents via Self-Evolutionary Reinforcement Learning [28.291759852111586]
本稿では,GUIエージェントの性能向上のための3つのコア戦略を組み込んだ強化学習(RL)フレームワークを提案する。
3kのトレーニングサンプルだけで、我々の7B-パラメーターモデルも同様の大きさのモデルで最先端の結果が得られる。
特に、ScreenSpot-Proデータセットで47.3%の精度を実現し、UI-TARS-72Bのようなはるかに大きなモデルよりも24.2%のマージンを達成している。
論文 参考訳(メタデータ) (2025-05-18T11:22:04Z) - Large Language Model Empowered Recommendation Meets All-domain Continual Pre-Training [60.38082979765664]
CPRecは、レコメンデーションのための全ドメイン連続事前トレーニングフレームワークである。
LLMを連続的な事前学習パラダイムを通じて、普遍的なユーザ行動と整合させる。
2つの異なるプラットフォームから5つの実世界のデータセットを実験する。
論文 参考訳(メタデータ) (2025-04-11T20:01:25Z) - Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Boosting Virtual Agent Learning and Reasoning: A Step-wise, Multi-dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
ステップワイドな多次元ジェネリスト・リワードモデルであるSimisalを提案する。
エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
仮想エージェント領域の最初のベンチマークをステップワイドで多次元の報酬モデルトレーニングと評価のために導入する。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - UMB@PerAnsSumm 2025: Enhancing Perspective-Aware Summarization with Prompt Optimization and Supervised Fine-Tuning [8.095763327154335]
本稿では,パーアンサム共有タスク(PerAnsSumm Shared Task)について,パースペクティブ・スパン識別とパースペクティブ・アウェア・サマリゼーションを包含するアプローチを提案する。
スパン識別には、平均化によって3つのトランスフォーマーモデルを統合するアンサンブル学習を採用し、個々のモデルの強みを利用する。
要約のために、キーフレーズを組み込んだ一連のCoT(Chain-of-Thought)を設計し、要約生成を管理可能なステップに導く。
論文 参考訳(メタデータ) (2025-03-14T06:29:51Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Training-Free Unsupervised Prompt for Vision-Language Models [27.13778811871694]
本研究では,表現能力の保持と類似性に基づく予測確率の残差による強化を図るために,TFUP(Training-Free Unsupervised Prompts)を提案する。
TFUPは、複数の分類データセットのトレーニングベースメソッドを超え、驚くべきパフォーマンスを達成する。
TFUP-Tは,複数のベンチマークにおける教師なしおよび少数ショット適応手法と比較して,最先端の分類性能が向上する。
論文 参考訳(メタデータ) (2024-04-25T05:07:50Z) - Break a Lag: Triple Exponential Moving Average for Enhanced Optimization [2.0199251985015434]
本稿では,三重指数移動平均のパワーを利用する新しい最適化手法であるFAMEを紹介する。
FAMEはデータダイナミクスに対する応答性を高め、トレンド識別ラグを緩和し、学習効率を最適化する。
包括的評価は、画像分類、オブジェクト検出、セマンティックセグメンテーションを含む様々なコンピュータビジョンタスクを含み、FAMEを30の異なるアーキテクチャに統合する。
論文 参考訳(メタデータ) (2023-06-02T10:29:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。