Fugu-MT 論文翻訳(概要): GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents

論文の概要: GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents

arxiv url: http://arxiv.org/abs/2505.15810v1
Date: Wed, 21 May 2025 17:59:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:59.826849
Title: GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents
Title（参考訳）: GUI-G1:GUIエージェントの視覚的グラウンド化のためのR1-Zeroライクなトレーニングを理解する
Authors: Yuqi Zhou, Sunhao Dai, Shuai Wang, Kaiwen Zhou, Qinqlin Jia, Junxu,
Abstract要約: 最近のGUIエージェントは、R1-Zeroパラダイムを再現し、オンライン強化学習(RL)と、オブジェクトの接地前に明確な連鎖推論を結合する。まず、入力設計、出力評価、ポリシー更新という、トレーニングパイプラインの3つの重要なコンポーネントについて、広範囲な分析実験を行った。このGUI-G1-3Bは,Qwen2.5-VL-3B-Instructで17Kの公開サンプルをトレーニングし,ScreenSpotで90.3%,ScreenSpot-Proで37.1%の精度を実現した。
参考スコア（独自算出の注目度）: 13.711318709034671
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent Graphical User Interface (GUI) agents replicate the R1-Zero paradigm, coupling online Reinforcement Learning (RL) with explicit chain-of-thought reasoning prior to object grounding and thereby achieving substantial performance gains. In this paper, we first conduct extensive analysis experiments of three key components of that training pipeline: input design, output evaluation, and policy update-each revealing distinct challenges arising from blindly applying general-purpose RL without adapting to GUI grounding tasks. Input design: Current templates encourage the model to generate chain-of-thought reasoning, but longer chains unexpectedly lead to worse grounding performance. Output evaluation: Reward functions based on hit signals or box area allow models to exploit box size, leading to reward hacking and poor localization quality. Policy update: Online RL tends to overfit easy examples due to biases in length and sample difficulty, leading to under-optimization on harder cases. To address these issues, we propose three targeted solutions. First, we adopt a Fast Thinking Template that encourages direct answer generation, reducing excessive reasoning during training. Second, we incorporate a box size constraint into the reward function to mitigate reward hacking. Third, we revise the RL objective by adjusting length normalization and adding a difficulty-aware scaling factor, enabling better optimization on hard samples. Our GUI-G1-3B, trained on 17K public samples with Qwen2.5-VL-3B-Instruct, achieves 90.3% accuracy on ScreenSpot and 37.1% on ScreenSpot-Pro. This surpasses all prior models of similar size and even outperforms the larger UI-TARS-7B, establishing a new state-of-the-art in GUI agent grounding. The project repository is available at https://github.com/Yuqi-Zhou/GUI-G1.
Abstract（参考訳）: 最近のグラフィカルユーザインタフェース(GUI)エージェントはR1-Zeroのパラダイムを再現し、オンライン強化学習(RL)をオブジェクトの接地前に明確な連鎖推論と結合し、実質的なパフォーマンス向上を達成する。本稿ではまず,GUIグラウンディングタスクに適応せずに汎用RLを盲目的に適用することによって生じる課題を,入力設計,出力評価,ポリシー更新の3つの重要な要素について,広範囲に解析実験を行った。入力設計: 現在のテンプレートはモデルのチェーン・オブ・ソート推論を奨励するが、チェーンが長ければ長いほどパフォーマンスが悪化する。アウトプット評価: ヒット信号やボックス領域に基づいたリワード関数により、モデルがボックスサイズを活用でき、ハッキングの報奨とローカライズ品質の低下につながる。ポリシー更新: オンラインRLは、長さのバイアスとサンプルの難易度により、簡単な例に過度に適合する傾向にあり、難しいケースに対して過度に最適化される。これらの問題に対処するため、我々は3つの対象とする解決策を提案する。まず、直接回答の生成を奨励し、トレーニング中に過剰な推論を減らすFast Thinking Templateを採用します。第2に、報酬のハッキングを軽減するために、報酬関数にボックスサイズ制約を組み込む。第三に、RLの目的を、長さの正規化を調整し、難易度対応のスケーリング係数を追加し、ハードサンプルの最適化を改良する。このGUI-G1-3Bは,Qwen2.5-VL-3B-Instructで17Kの公開サンプルをトレーニングし,ScreenSpotで90.3%,ScreenSpot-Proで37.1%の精度を実現した。これは、同じサイズの以前のモデルをすべて上回り、より大きなUI-TARS-7Bよりも優れており、GUIエージェントの接地における新しい最先端性を確立している。プロジェクトリポジトリはhttps://github.com/Yuqi-Zhou/GUI-G1.comから入手できる。

関連論文リスト

Test-Time Reinforcement Learning for GUI Grounding via Region Consistency [17.954613936413942]
本稿では,複数のサンプル予測から空間投票格子を構築し,コンセンサス領域を同定するテスト時間スケーリング手法を提案する。また、GUI-RCPOを導入し、これらの一貫性パターンをテスト時間強化学習の報酬に変換する。提案手法は,GUI接地のためのテスト時間スケーリングとテスト時間強化学習の未解決の可能性を明らかにし,より堅牢でデータ効率のよいGUIエージェントへの有望な道筋を提供する。
論文参考訳（メタデータ） (2025-08-07T17:54:27Z)
UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding [14.42815380175443]
UI-AGILEはGUIエージェントをトレーニング段階と推論段階の両方で強化する包括的フレームワークである。トレーニングでは,Supervised Fine-Tuningプロセスの一連の改善を提案する。本稿では,高解像度ディスプレイのグラウンド化精度を劇的に向上させる新しい手法であるDecomposed Grounding with Selectionを提案する。
論文参考訳（メタデータ） (2025-07-29T17:22:07Z)
MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。 GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文参考訳（メタデータ） (2025-07-08T07:07:53Z)
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文参考訳（メタデータ） (2025-06-05T04:12:36Z)
UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents [37.871793585090586]
GUIエージェントにおける2つの重要な課題に対処する自己改善フレームワークであるUI-Genieを紹介する。軌道結果の検証は困難であり、高品質なトレーニングデータはスケーラブルではない。 UI-Genieは複数のGUIエージェントベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-27T17:58:06Z)
One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。 V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文参考訳（メタデータ） (2025-05-23T17:41:14Z)
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners [41.22438639369124]
InfiGUI-R1は、Actor2Reasonerフレームワークを通じて開発されたMLLMベースのGUIエージェントである。本研究では,教師モデルからMLLMへのクロスモーダル空間推論能力の伝達に空間推論蒸留を用いる。 Reinforcement Learning(強化学習)を用いて基礎的推論を熟考する。
論文参考訳（メタデータ） (2025-04-19T09:25:55Z)
Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文参考訳（メタデータ） (2025-04-18T10:46:22Z)
UI-R1: Enhancing Efficient Action Prediction of GUI Agents by Reinforcement Learning [31.796328505473305]
UI-R1は、ルールベースのRLがGUIアクション予測タスクのためのマルチモーダル大言語モデル(MLLM)の推論能力をどのように向上するかを探求する最初のフレームワークである。具体的には、UI-R1が新しいルールベースのアクション報酬を導入し、グループ相対ポリシー最適化(GRPO)のようなポリシーベースのアルゴリズムによるモデル最適化を可能にする。効率的なトレーニングのために、モバイルデバイス上で5つの一般的なアクションタイプを含む136の課題タスクからなる、小さくて高品質なデータセットをキュレートする。
論文参考訳（メタデータ） (2025-03-27T15:39:30Z)
GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。 NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文参考訳（メタデータ） (2025-01-23T18:16:21Z)
Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文参考訳（メタデータ） (2025-01-20T18:33:33Z)
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文参考訳（メタデータ） (2024-01-11T17:58:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。