論文の概要: GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents
- arxiv url: http://arxiv.org/abs/2505.15810v1
- Date: Wed, 21 May 2025 17:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.826849
- Title: GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents
- Title(参考訳): GUI-G1:GUIエージェントの視覚的グラウンド化のためのR1-Zeroライクなトレーニングを理解する
- Authors: Yuqi Zhou, Sunhao Dai, Shuai Wang, Kaiwen Zhou, Qinqlin Jia, Junxu,
- Abstract要約: 最近のGUIエージェントは、R1-Zeroパラダイムを再現し、オンライン強化学習(RL)と、オブジェクトの接地前に明確な連鎖推論を結合する。
まず、入力設計、出力評価、ポリシー更新という、トレーニングパイプラインの3つの重要なコンポーネントについて、広範囲な分析実験を行った。
このGUI-G1-3Bは,Qwen2.5-VL-3B-Instructで17Kの公開サンプルをトレーニングし,ScreenSpotで90.3%,ScreenSpot-Proで37.1%の精度を実現した。
- 参考スコア(独自算出の注目度): 13.711318709034671
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent Graphical User Interface (GUI) agents replicate the R1-Zero paradigm, coupling online Reinforcement Learning (RL) with explicit chain-of-thought reasoning prior to object grounding and thereby achieving substantial performance gains. In this paper, we first conduct extensive analysis experiments of three key components of that training pipeline: input design, output evaluation, and policy update-each revealing distinct challenges arising from blindly applying general-purpose RL without adapting to GUI grounding tasks. Input design: Current templates encourage the model to generate chain-of-thought reasoning, but longer chains unexpectedly lead to worse grounding performance. Output evaluation: Reward functions based on hit signals or box area allow models to exploit box size, leading to reward hacking and poor localization quality. Policy update: Online RL tends to overfit easy examples due to biases in length and sample difficulty, leading to under-optimization on harder cases. To address these issues, we propose three targeted solutions. First, we adopt a Fast Thinking Template that encourages direct answer generation, reducing excessive reasoning during training. Second, we incorporate a box size constraint into the reward function to mitigate reward hacking. Third, we revise the RL objective by adjusting length normalization and adding a difficulty-aware scaling factor, enabling better optimization on hard samples. Our GUI-G1-3B, trained on 17K public samples with Qwen2.5-VL-3B-Instruct, achieves 90.3% accuracy on ScreenSpot and 37.1% on ScreenSpot-Pro. This surpasses all prior models of similar size and even outperforms the larger UI-TARS-7B, establishing a new state-of-the-art in GUI agent grounding. The project repository is available at https://github.com/Yuqi-Zhou/GUI-G1.
- Abstract(参考訳): 最近のグラフィカルユーザインタフェース(GUI)エージェントはR1-Zeroのパラダイムを再現し、オンライン強化学習(RL)をオブジェクトの接地前に明確な連鎖推論と結合し、実質的なパフォーマンス向上を達成する。
本稿ではまず,GUIグラウンディングタスクに適応せずに汎用RLを盲目的に適用することによって生じる課題を,入力設計,出力評価,ポリシー更新の3つの重要な要素について,広範囲に解析実験を行った。
入力設計: 現在のテンプレートはモデルのチェーン・オブ・ソート推論を奨励するが、チェーンが長ければ長いほどパフォーマンスが悪化する。
アウトプット評価: ヒット信号やボックス領域に基づいたリワード関数により、モデルがボックスサイズを活用でき、ハッキングの報奨とローカライズ品質の低下につながる。
ポリシー更新: オンラインRLは、長さのバイアスとサンプルの難易度により、簡単な例に過度に適合する傾向にあり、難しいケースに対して過度に最適化される。
これらの問題に対処するため、我々は3つの対象とする解決策を提案する。
まず、直接回答の生成を奨励し、トレーニング中に過剰な推論を減らすFast Thinking Templateを採用します。
第2に、報酬のハッキングを軽減するために、報酬関数にボックスサイズ制約を組み込む。
第三に、RLの目的を、長さの正規化を調整し、難易度対応のスケーリング係数を追加し、ハードサンプルの最適化を改良する。
このGUI-G1-3Bは,Qwen2.5-VL-3B-Instructで17Kの公開サンプルをトレーニングし,ScreenSpotで90.3%,ScreenSpot-Proで37.1%の精度を実現した。
これは、同じサイズの以前のモデルをすべて上回り、より大きなUI-TARS-7Bよりも優れており、GUIエージェントの接地における新しい最先端性を確立している。
プロジェクトリポジトリはhttps://github.com/Yuqi-Zhou/GUI-G1.comから入手できる。
関連論文リスト
- InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners [41.22438639369124]
InfiGUI-R1は、Actor2Reasonerフレームワークを通じて開発されたMLLMベースのGUIエージェントである。
本研究では,教師モデルからMLLMへのクロスモーダル空間推論能力の伝達に空間推論蒸留を用いる。
Reinforcement Learning(強化学習)を用いて基礎的推論を熟考する。
論文 参考訳(メタデータ) (2025-04-19T09:25:55Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - UI-R1: Enhancing Efficient Action Prediction of GUI Agents by Reinforcement Learning [31.796328505473305]
UI-R1は、ルールベースのRLがGUIアクション予測タスクのためのマルチモーダル大言語モデル(MLLM)の推論能力をどのように向上するかを探求する最初のフレームワークである。
具体的には、UI-R1が新しいルールベースのアクション報酬を導入し、グループ相対ポリシー最適化(GRPO)のようなポリシーベースのアルゴリズムによるモデル最適化を可能にする。
効率的なトレーニングのために、モバイルデバイス上で5つの一般的なアクションタイプを含む136の課題タスクからなる、小さくて高品質なデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-03-27T15:39:30Z) - GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。
NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文 参考訳(メタデータ) (2025-01-23T18:16:21Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。