論文の概要: GuirlVG: Incentivize GUI Visual Grounding via Empirical Exploration on Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.04389v1
- Date: Wed, 06 Aug 2025 12:35:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.711067
- Title: GuirlVG: Incentivize GUI Visual Grounding via Empirical Exploration on Reinforcement Learning
- Title(参考訳): GuirlVG: 強化学習における経験的探索によるGUI視覚グラウンドのインセンティブ化
- Authors: Weitai Kang, Bin Lei, Gaowen Liu, Caiwen Ding, Yan Yan,
- Abstract要約: GuirlVGは、系統的な経験的研究と新しい安定化技術に基づいて構築された強化学習に基づくGUI-VG手法である。
本稿では,報酬の過度な最適化を緩和するために,動的にトレーニングを安定化する新しい適応的KL因子を提案する。
実験の結果、GuirlVGは5.2Kのトレーニングサンプルしか持たないが、100万以上のサンプルで訓練されたSFT法よりも優れていた。
- 参考スコア(独自算出の注目度): 16.604745877144023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical user interface visual grounding (GUI-VG), a core capability for GUI agents, has primarily relied on supervised fine-tuning (SFT) of multimodal large language models (MLLMs), which demands extensive data curation and significant training costs. However, as MLLMs continue to advance and even cover GUI domains during pretraining, the necessity of exhaustive SFT post-training becomes increasingly questionable. Meanwhile, recent successes of rule-based reinforcement fine-tuning (RFT) suggest a more efficient alternative. Despite this promise, the optimal manner of applying RFT for GUI-VG remains unexplored. To bridge this gap, we introduce GuirlVG, a reinforcement learning-based GUI-VG method built on a systematic empirical study and a novel stabilization technique. We find that naive application of RFT underperforms the SFT baseline, motivating a deeper exploration. First, we decompose RFT into its core components and analyze the optimal formulation of each. Second, we propose a novel Adversarial KL Factor that dynamically stabilizes training to mitigate reward over-optimization. Third, we further explore the training configurations of RFT to enhance effectiveness. Extensive experiments show that GuirlVG, with only 5.2K training samples, outperforms SFT methods trained on over 10M samples, achieving a 7.7% improvement on ScreenSpot, a 17.2% improvement on ScreenSpotPro, and 91.9% accuracy on ScreenSpotV2.
- Abstract(参考訳): GUIエージェントのコア機能であるグラフィカルユーザインタフェースビジュアルグラウンドティング(GUI-VG)は、主にデータキュレーションと大幅なトレーニングコストを必要とするマルチモーダルな大規模言語モデル(MLLM)の教師付き微調整(SFT)に依存している。
しかし、MLLMは事前訓練中にGUIドメインをカバーし続けているため、徹底的なSFTポストトレーニングの必要性はますます疑問視される。
一方、近年のルールベース強化微調整(RFT)の成功は、より効率的な代替手段であることが示唆されている。
この約束にもかかわらず、GUI-VG に RFT を適用するための最適な方法はまだ探索されていない。
このギャップを埋めるために,系統的な実証研究と新しい安定化技術に基づいて構築された強化学習に基づくGUI-VG手法であるGuirlVGを紹介する。
RFTの単純適用はSFTベースラインを過小評価しており、より深い探索の動機となっている。
まず、RFTをその中核成分に分解し、各成分の最適定式化を分析する。
第2に,報酬の過度な最適化を緩和するために,動的にトレーニングを安定化する新しい適応的KL因子を提案する。
第3に,実効性を高めるため,RFTのトレーニング構成をさらに検討する。
5.2Kのトレーニングサンプルしか持たないGuirlVGは、ScreenSpotを7.7%改善し、ScreenSpotProを17.2%改善し、ScreenSpotV2を91.9%精度で改善した。
関連論文リスト
- Revisiting Continual Semantic Segmentation with Pre-trained Vision Models [53.56065605992639]
連続セマンティック(CSS)は、それまで遭遇したクラスについての知識を保持しながら、新しいクラスを段階的に分割することを目指している。
CSSの最近の進歩は、事前訓練されたビジョンモデル(PVM)をバックボーンとして採用することで推進されている。
既存の戦略の中で、クラス間でモデルを逐次微調整するDirect Fine-Tuning (DFT)が最も単純なアプローチである。
論文 参考訳(メタデータ) (2025-08-06T09:51:46Z) - Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training [23.99424961055015]
本稿では,教師付きファインチューニング(SFT)と強化ファインチューニング(RFT)の2つのコアポストトレーニングパラダイムの比較分析を行った。
本実験は,7つの多様なマルチモーダルタスクからなるベンチマークで実施した。
論文 参考訳(メタデータ) (2025-07-07T18:17:06Z) - Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling [35.64557242726578]
Prefix-RFTは、実証と探索の両方から学習を相乗化するためのハイブリッドアプローチである。
スタンドアロンの SFT と RFT の性能を上回るだけでなく、並列混合型 RFT 法よりも優れる。
論文 参考訳(メタデータ) (2025-07-02T13:04:09Z) - Reinforcement Fine-Tuning Enables MLLMs Learning Novel Tasks Stably [80.36077974826865]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
オープンソースマルチモーダルモデルQwen2.5-VLにおけるSFTとRFTの挙動について検討する。
SFTは迅速なタスク獲得を可能にするが、破滅的な忘れを招き、RFTは新しいタスクについてよりゆっくりと学習するが、事前の知識は維持する。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Efficient Reinforcement Finetuning via Adaptive Curriculum Learning [24.52451100497884]
強化微調整(RFT)は、大規模言語モデル(LLM)の数学的推論能力を高める大きな可能性を示している。
AdaRFTは、モデルの最近の報奨信号に基づいて、トレーニング問題の難易度を動的に調整する。
AdaRFTはトレーニング時間を最大2倍に短縮し、かなりのマージンで精度を向上し、よりスケーラブルで効果的なRTTフレームワークを提供する。
論文 参考訳(メタデータ) (2025-04-07T21:31:31Z) - UI-R1: Enhancing Efficient Action Prediction of GUI Agents by Reinforcement Learning [31.796328505473305]
UI-R1は、ルールベースのRLがGUIアクション予測タスクのためのマルチモーダル大言語モデル(MLLM)の推論能力をどのように向上するかを探求する最初のフレームワークである。
具体的には、UI-R1が新しいルールベースのアクション報酬を導入し、グループ相対ポリシー最適化(GRPO)のようなポリシーベースのアルゴリズムによるモデル最適化を可能にする。
効率的なトレーニングのために、モバイルデバイス上で5つの一般的なアクションタイプを含む136の課題タスクからなる、小さくて高品質なデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-03-27T15:39:30Z) - Visual-RFT: Visual Reinforcement Fine-Tuning [75.20572976629646]
OpenAI o1のような大規模推論モデルにおける強化ファインチューニング(RFT)は、回答に対するフィードバックから学ぶ。
Visual-RFTはさらに、視覚タスクにおけるRTTの適用領域を拡張している。
論文 参考訳(メタデータ) (2025-03-03T18:16:32Z) - ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts [52.1635661239108]
本稿では,事前学習された視覚変換器(ViT)のドメインシフト下での伝達学習を改善するために,ExPLoRAを提案する。
我々の実験は、衛星画像の最先端の成果を実証し、完全な事前学習や微調整のViTよりも優れています。
論文 参考訳(メタデータ) (2024-06-16T15:14:56Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。