論文の概要: CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2603.02951v1
- Date: Tue, 03 Mar 2026 13:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.801641
- Title: CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning
- Title(参考訳): CGL:強化ファインチューニングによる継続的GUI学習の促進
- Authors: Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo,
- Abstract要約: Supervised Fine-Tuning (SFT) は高速な適応を可能にし、しばしば知識のオーバーライトを引き起こす。
強化学習(RL)は、事前の相互作用ロジックを消去から保護する固有のレジリエンスを示す。
textbfContinual textbfGUI textbfLearningフレームワークを提案する。
- 参考スコア(独自算出の注目度): 67.78566256784404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical User Interface (GUI) Agents, benefiting from recent advances in multimodal large language models (MLLM), have achieved significant development. However, due to the frequent updates of GUI applications, adapting to new tasks without forgetting old tasks in GUI continual learning remains an open problem. In this work, we reveal that while Supervised Fine-Tuning (SFT) facilitates fast adaptation, it often triggers knowledge overwriting, whereas Reinforcement Learning (RL) demonstrates an inherent resilience that shields prior interaction logic from erasure. Based on this insight, we propose a \textbf{C}ontinual \textbf{G}UI \textbf{L}earning (CGL) framework that dynamically balances adaptation efficiency and skill retention by enhancing the synergy between SFT and RL. Specifically, we introduce an SFT proportion adjustment mechanism guided by policy entropy to dynamically control the weight allocation between the SFT and RL training phases. To resolve explicit gradient interference, we further develop a specialized gradient surgery strategy. By projecting exploratory SFT gradients onto GRPO-based anchor gradients, our method explicitly clips the components of SFT gradients that conflict with GRPO. On top of that, we establish an AndroidControl-CL benchmark, which divides GUI applications into distinct task groups to effectively simulate and evaluate the performance of continual GUI learning. Experimental results demonstrate the effectiveness of our proposed CGL framework across continual learning scenarios. The benchmark, code, and model will be made publicly available.
- Abstract(参考訳): グラフィカルユーザインタフェース (GUI) エージェントは,近年のマルチモーダル大規模言語モデル (MLLM) の進歩の恩恵を受けている。
しかし、GUIアプリケーションの頻繁な更新のため、GUI連続学習における古いタスクを忘れずに新しいタスクに適応することは未解決の問題である。
本研究では,SFT(Supervised Fine-Tuning)が高速な適応を促進する一方で,知識オーバーライトを誘発することが多いのに対して,強化学習(Reinforcement Learning, RL)は,事前の相互作用ロジックを消去から保護する固有のレジリエンスを示す。
そこで本研究では,SFTとRLの相乗効果を高めることにより,適応効率とスキル保持の動的バランスを図り,CGLフレームワークを提案する。
具体的には、政策エントロピーによって導かれるSFT比調整機構を導入し、SFTとRLのトレーニングフェーズ間の重量配分を動的に制御する。
明示的な勾配干渉を解決するために,我々はさらに専門的な勾配手術戦略を開発する。
探索的なSFT勾配をGRPOベースのアンカー勾配に投影することにより、GRPOと矛盾するSFT勾配の成分を明示的に切断する。
そこで我々はAndroidControl-CLベンチマークを構築し、GUIアプリケーションを個別のタスクグループに分割し、連続的なGUI学習の性能を効果的にシミュレートし評価する。
実験により,連続学習シナリオにおける提案したCGLフレームワークの有効性を実証した。
ベンチマーク、コード、モデルは公開されます。
関連論文リスト
- PROPA: Toward Process-level Optimization in Visual Reasoning via Reinforcement Learning [30.44007644340425]
本稿では,モンテカルロ木探索 (MCTS) とGRPOを統合した新しいフレームワーク PROPA について紹介する。
7つのベンチマークと4つのVLMバックボーンで、PROPAはSFTとRLVRベースのベースラインを一貫して上回っている。
ドメイン内タスクで最大17.0%、ドメイン外タスクで最大21.0%のゲインを達成する。
論文 参考訳(メタデータ) (2025-11-13T13:06:12Z) - Orcust: Stepwise-Feedback Reinforcement Learning for GUI Agent [12.334063115362758]
Orcust は Principle-Constrained Reward Modeling と Online VM-Grounded Trajectory Construction を統合したフレームワークである。
OVTCは機器化された仮想マシンをスピンアップして、構造化GUIインタラクション軌跡を自律的に収集する。
論文 参考訳(メタデータ) (2025-09-22T15:40:31Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - SWIRL: A Staged Workflow for Interleaved Reinforcement Learning in Mobile GUI Control [38.81034547191083]
マルチエージェントシステム用に設計されたインターリーブ強化学習のための段階的ワークフローであるSWIRLを紹介する。
SWIRLは、MARLを一連の単エージェント強化学習タスクに再構成し、一方のエージェントを一度に更新し、他方のエージェントを固定する。
モバイルGUI制御への応用において、SWIRLは言語とスクリーンコンテキストを構造化されたプランに変換するナビゲータと、これらのプランを実行可能なアトミックアクションに変換するインターアクターをインスタンス化する。
論文 参考訳(メタデータ) (2025-08-27T16:27:19Z) - CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks [11.121687042616974]
Reinforcement Learning (RL) は動的対話型GUI環境においてエージェントのパフォーマンスを効果的に向上させる。
ほとんどのアプローチはタスク固有のニュアンスを1つの粗い報酬に分解し、エージェントに非効率なポリシー更新をもたらす均一な信号を残す。
我々は,グループ相対政策最適化(GRPO)に基づくカリキュラム学習フレームワークであるCRAFT-GUIを提案する。
論文 参考訳(メタデータ) (2025-08-15T09:55:02Z) - On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [61.607788999847564]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-05-22T06:24:32Z) - Guiding VLM Agents with Process Rewards at Inference Time for GUI Navigation [101.09478572153239]
本稿では,GUIナビゲーションにおける報酬モデルと推論時の制御により,VLMエージェントをプロセス監視で誘導する手法を提案する。
このガイダンスにより、VLMエージェントは各推論ステップでのアクションを最適化し、静的環境と動的環境の両方のパフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2025-04-22T17:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。