論文の概要: UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.21620v1
- Date: Thu, 27 Mar 2025 15:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:53:04.512996
- Title: UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
- Title(参考訳): UI-R1:強化学習によるGUIエージェントの動作予測の強化
- Authors: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li,
- Abstract要約: ルールベースの強化学習は、グラフィックユーザインタフェース(GUI)アクション予測タスクのためのマルチモーダル大言語モデル(MLLM)の推論能力を高めることができる。
我々はルールベースのアクション報酬を導入し、ポリシーベースのアルゴリズムによるモデル最適化を可能にした。
実験の結果,提案したデータ効率モデルであるUI-R1-3Bは,ドメイン内(ID)タスクとドメイン外(OOD)タスクの両方を大幅に改善することがわかった。
- 参考スコア(独自算出の注目度): 31.014515049981817
- License:
- Abstract: The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities in LLMs through reinforcement learning (RL) with rule-based rewards. Building on this idea, we are the first to explore how rule-based RL can enhance the reasoning capabilities of multimodal large language models (MLLMs) for graphic user interface (GUI) action prediction tasks. To this end, we curate a small yet high-quality dataset of 136 challenging tasks, encompassing five common action types on mobile devices. We also introduce a unified rule-based action reward, enabling model optimization via policy-based algorithms such as Group Relative Policy Optimization (GRPO). Experimental results demonstrate that our proposed data-efficient model, UI-R1-3B, achieves substantial improvements on both in-domain (ID) and out-of-domain (OOD) tasks. Specifically, on the ID benchmark AndroidControl, the action type accuracy improves by 15%, while grounding accuracy increases by 10.3%, compared with the base model (i.e. Qwen2.5-VL-3B). On the OOD GUI grounding benchmark ScreenSpot-Pro, our model surpasses the base model by 6.0% and achieves competitive performance with larger models (e.g., OS-Atlas-7B), which are trained via supervised fine-tuning (SFT) on 76K data. These results underscore the potential of rule-based reinforcement learning to advance GUI understanding and control, paving the way for future research in this domain.
- Abstract(参考訳): 最近のDeepSeek-R1では、ルールベースの報酬を持つ強化学習(RL)を通じて、LSMにおける推論能力の出現を実証している。
このアイデアに基づいて、我々は、ルールベースのRLが、グラフィックユーザインタフェース(GUI)アクション予測タスクのためのマルチモーダル大言語モデル(MLLM)の推論能力をどのように向上するかを、初めて検討する。
この目的のために、モバイルデバイス上で5つの一般的なアクションタイプを含む136の課題からなる、小さくて高品質なデータセットをキュレートする。
また,グループ相対政策最適化(GRPO)のようなポリシーベースのアルゴリズムによるモデル最適化を可能にする,統一されたルールベースのアクション報酬も導入する。
実験の結果,提案したデータ効率モデルであるUI-R1-3Bは,ドメイン内(ID)タスクとドメイン外(OOD)タスクの両方を大幅に改善することがわかった。
具体的には、IDベンチマークのAndroidControlでは、アクションタイプの精度が15%向上し、ベースモデル(Qwen2.5-VL-3B)と比較してグラウンドの精度が10.3%向上した。
OOD GUIグラウンドティングベンチマークであるScreenSpot-Proでは,76Kデータ上で教師付き微調整(SFT)によってトレーニングされた大規模モデル(OS-Atlas-7Bなど)との競争性能が,ベースモデルより6.0%以上向上した。
これらの結果は、GUIの理解と制御を促進するためのルールベースの強化学習の可能性を強調し、この領域における将来の研究の道を開くものである。
関連論文リスト
- Improved GUI Grounding via Iterative Narrowing [0.03922370499388702]
本稿では,GUIグラウンディングにおける汎用モデルと微調整モデルの両方の性能向上のために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。
評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。
論文 参考訳(メタデータ) (2024-11-18T05:47:12Z) - Learning Goal-Conditioned Representations for Language Reward Models [10.94845204766088]
対照的な$textitgoal-conditioned$でトレーニング報酬モデル(RM)を提案する。
RM表現のこのトレーニング方法により、textitsteerability$が向上し、特定の目標状態を達成するアクションの可能性を評価することができる。
さらに、これらの表現は、希望する将来の目標状態に条件付けすることで、きめ細かい制御を行うことができる。
論文 参考訳(メタデータ) (2024-07-18T20:23:11Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。
本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。
以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-13T16:17:21Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Foundation Models for Structural Health Monitoring [17.37816294594306]
本稿では,トランスフォーマーニューラルネットワークをMasked Auto-Encoderアーキテクチャを用いて,構造的健康モニタリングのための基礎モデルとして初めて利用することを提案する。
自己教師付き事前学習を通じて、複数の大規模データセットから一般化可能な表現を学習する能力を実証する。
本研究は,3つの運用用インダクトのデータを用いた基礎モデルの有効性を示す。
論文 参考訳(メタデータ) (2024-04-03T13:32:44Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Utilizing Explainable AI for improving the Performance of Neural
Networks [6.670483888835783]
我々はXAIから始まるモデル予測を継続的に改善するリトレーニングパイプラインを提案する。
提案手法を実生活と公開両方のデータセットで評価する。
SHAPベースのリトレーニング手法を用いた実験は、タスクをカウントする人に対して、標準の等重量リトレーニングの精度を4%向上させる。
論文 参考訳(メタデータ) (2022-10-07T09:39:20Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。