論文の概要: UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.21620v2
- Date: Sun, 30 Mar 2025 13:05:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 13:14:21.805538
- Title: UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
- Title(参考訳): UI-R1:強化学習によるGUIエージェントの動作予測の強化
- Authors: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li,
- Abstract要約: ルールベースの強化学習は、グラフィックユーザインタフェース(GUI)アクション予測タスクのためのマルチモーダル大言語モデル(MLLM)の推論能力を高めることができる。
我々はルールベースのアクション報酬を導入し、ポリシーベースのアルゴリズムによるモデル最適化を可能にした。
実験の結果,提案したデータ効率モデルであるUI-R1-3Bは,ドメイン内(ID)タスクとドメイン外(OOD)タスクの両方を大幅に改善することがわかった。
- 参考スコア(独自算出の注目度): 31.014515049981817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities in LLMs through reinforcement learning (RL) with rule-based rewards. Building on this idea, we are the first to explore how rule-based RL can enhance the reasoning capabilities of multimodal large language models (MLLMs) for graphic user interface (GUI) action prediction tasks. To this end, we curate a small yet high-quality dataset of 136 challenging tasks, encompassing five common action types on mobile devices. We also introduce a unified rule-based action reward, enabling model optimization via policy-based algorithms such as Group Relative Policy Optimization (GRPO). Experimental results demonstrate that our proposed data-efficient model, UI-R1-3B, achieves substantial improvements on both in-domain (ID) and out-of-domain (OOD) tasks. Specifically, on the ID benchmark AndroidControl, the action type accuracy improves by 15%, while grounding accuracy increases by 10.3%, compared with the base model (i.e. Qwen2.5-VL-3B). On the OOD GUI grounding benchmark ScreenSpot-Pro, our model surpasses the base model by 6.0% and achieves competitive performance with larger models (e.g., OS-Atlas-7B), which are trained via supervised fine-tuning (SFT) on 76K data. These results underscore the potential of rule-based reinforcement learning to advance GUI understanding and control, paving the way for future research in this domain.
- Abstract(参考訳): 最近のDeepSeek-R1では、ルールベースの報酬を持つ強化学習(RL)を通じて、LSMにおける推論能力の出現を実証している。
このアイデアに基づいて、我々は、ルールベースのRLが、グラフィックユーザインタフェース(GUI)アクション予測タスクのためのマルチモーダル大言語モデル(MLLM)の推論能力をどのように向上するかを、初めて検討する。
この目的のために、モバイルデバイス上で5つの一般的なアクションタイプを含む136の課題からなる、小さくて高品質なデータセットをキュレートする。
また,グループ相対政策最適化(GRPO)のようなポリシーベースのアルゴリズムによるモデル最適化を可能にする,統一されたルールベースのアクション報酬も導入する。
実験の結果,提案したデータ効率モデルであるUI-R1-3Bは,ドメイン内(ID)タスクとドメイン外(OOD)タスクの両方を大幅に改善することがわかった。
具体的には、IDベンチマークのAndroidControlでは、アクションタイプの精度が15%向上し、ベースモデル(Qwen2.5-VL-3B)と比較してグラウンドの精度が10.3%向上した。
OOD GUIグラウンドティングベンチマークであるScreenSpot-Proでは,76Kデータ上で教師付き微調整(SFT)によってトレーニングされた大規模モデル(OS-Atlas-7Bなど)との競争性能が,ベースモデルより6.0%以上向上した。
これらの結果は、GUIの理解と制御を促進するためのルールベースの強化学習の可能性を強調し、この領域における将来の研究の道を開くものである。
関連論文リスト
- Reinforcement Learning for Reasoning in Large Language Models with One Training Example [129.11571295790807]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners [41.22438639369124]
InfiGUI-R1は、Actor2Reasonerフレームワークを通じて開発されたMLLMベースのGUIエージェントである。
本研究では,教師モデルからMLLMへのクロスモーダル空間推論能力の伝達に空間推論蒸留を用いる。
Reinforcement Learning(強化学習)を用いて基礎的推論を熟考する。
論文 参考訳(メタデータ) (2025-04-19T09:25:55Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次のトークン予測は,大規模言語モデル(LLM)のトレーニングの基本原則である
シーングラフデータセット上で,教師付き微調整(SFT)により学習したマルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
ノードレベルの報酬、エッジレベルの報酬、フォーマットの整合性報酬を統合したグラフ中心の報酬関数を設計する。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents [16.72683291432717]
nameは、高レベルな現実世界のタスクシナリオにおけるLVLMの能力を高めるために設計された最初の強化学習フレームワークである。
従来のOS-Atlasのような最先端のメソッドと比較して、データの0.02%しか使っていない。
論文 参考訳(メタデータ) (2025-04-14T17:45:54Z) - Improved Visual-Spatial Reasoning via R1-Zero-Like Training [18.61987706753493]
ビデオ視覚空間インテリジェンス(VSI)は、マルチモーダル大言語モデル(MLLM)の最も重要な推論能力の1つである。
この研究は、R1-Zeroライクなトレーニングを通してMLLMの視覚空間的推論を改善するための、最初の詳細な研究を行う。
論文 参考訳(メタデータ) (2025-04-01T15:11:11Z) - EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - Visual-RFT: Visual Reinforcement Fine-Tuning [75.20572976629646]
OpenAI o1のような大規模推論モデルにおける強化ファインチューニング(RFT)は、回答に対するフィードバックから学ぶ。
Visual-RFTはさらに、視覚タスクにおけるRTTの適用領域を拡張している。
論文 参考訳(メタデータ) (2025-03-03T18:16:32Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Improved GUI Grounding via Iterative Narrowing [0.03922370499388702]
本稿では,GUIグラウンディングにおける汎用モデルと微調整モデルの両方の性能向上のために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。
評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。
論文 参考訳(メタデータ) (2024-11-18T05:47:12Z) - AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。
実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。
評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-10-28T17:05:10Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Foundation Models for Structural Health Monitoring [17.37816294594306]
本稿では,トランスフォーマーニューラルネットワークをMasked Auto-Encoderアーキテクチャを用いて,構造的健康モニタリングのための基礎モデルとして初めて利用することを提案する。
自己教師付き事前学習を通じて、複数の大規模データセットから一般化可能な表現を学習する能力を実証する。
本研究は,3つの運用用インダクトのデータを用いた基礎モデルの有効性を示す。
論文 参考訳(メタデータ) (2024-04-03T13:32:44Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。