論文の概要: Enhancing Visual Grounding for GUI Agents via Self-Evolutionary Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.12370v2
- Date: Sat, 24 May 2025 03:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:55.057277
- Title: Enhancing Visual Grounding for GUI Agents via Self-Evolutionary Reinforcement Learning
- Title(参考訳): 自己進化的強化学習によるGUIエージェントの視覚的グラウンド化
- Authors: Xinbin Yuan, Jian Zhang, Kaixin Li, Zhuoxuan Cai, Lujian Yao, Jie Chen, Enguang Wang, Qibin Hou, Jinwei Chen, Peng-Tao Jiang, Bo Li,
- Abstract要約: 本稿では,GUIエージェントの性能向上のための3つのコア戦略を組み込んだ強化学習(RL)フレームワークを提案する。
3kのトレーニングサンプルだけで、我々の7B-パラメーターモデルも同様の大きさのモデルで最先端の結果が得られる。
特に、ScreenSpot-Proデータセットで47.3%の精度を実現し、UI-TARS-72Bのようなはるかに大きなモデルよりも24.2%のマージンを達成している。
- 参考スコア(独自算出の注目度): 28.291759852111586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical User Interface (GUI) agents have made substantial strides in understanding and executing user instructions across diverse platforms. Yet, grounding these instructions to precise interface elements remains challenging, especially in complex, high-resolution, professional environments. Traditional supervised finetuning (SFT) methods often require large volumes of diverse data and exhibit weak generalization. To overcome these limitations, we introduce a reinforcement learning (RL) based framework that incorporates three core strategies: (1) seed data curation to ensure high quality training samples, (2) a dense policy gradient that provides continuous feedback based on prediction accuracy, and (3) a self evolutionary reinforcement finetuning mechanism that iteratively refines the model using attention maps. With only 3k training samples, our 7B-parameter model achieves state-of-the-art results among similarly sized models on three grounding benchmarks. Notably, it attains 47.3\% accuracy on the ScreenSpot-Pro dataset, outperforming much larger models, such as UI-TARS-72B, by a margin of 24.2\%. These findings underscore the effectiveness of RL-based approaches in enhancing GUI agent performance, particularly in high-resolution, complex environments.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)エージェントは、さまざまなプラットフォームでユーザ命令を理解し実行することに大きく貢献している。
しかし、これらの命令を正確なインターフェイス要素に基礎付けることは、特に複雑で高解像度のプロの環境では、依然として困難である。
従来の教師付き微調整法(SFT)は、しばしば大量の多様なデータを必要とし、弱い一般化を示す。
これらの制約を克服するために,(1)高品質なトレーニングサンプルを確保するためのシードデータキュレーション,(2)予測精度に基づいた継続的なフィードバックを提供する密集したポリシー勾配,(3)注意図を用いてモデルを反復的に洗練する自己進化的強化微調整機構の3つの戦略を取り入れた強化学習(RL)ベースのフレームワークを導入する。
3kのトレーニングサンプルだけで、我々の7Bパラメーターモデルは3つのグラウンドベンチマークで同様の大きさのモデルで最先端の結果が得られる。
特に、ScreenSpot-Proデータセットで47.3\%の精度を実現し、UI-TARS-72Bのようなより大きなモデルよりも24.2\%のマージンを達成している。
これらの結果は、特に高分解能で複雑な環境でのGUIエージェントの性能向上におけるRLベースのアプローチの有効性を裏付けるものである。
関連論文リスト
- GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents [16.72683291432717]
nameは、高レベルな現実世界のタスクシナリオにおけるLVLMの能力を高めるために設計された最初の強化学習フレームワークである。
従来のOS-Atlasのような最先端のメソッドと比較して、データの0.02%しか使っていない。
論文 参考訳(メタデータ) (2025-04-14T17:45:54Z) - SMI: An Information-Theoretic Metric for Predicting Model Knowledge Solely from Pre-Training Signals [51.60874286674908]
我々は、モデルの内部知識を示す重要な下流タスクであるクローズドブック質問応答(QA)の性能を予測することを目指している。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴,モデルサイズ,QAの精度を線形に相関する情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - On Machine Learning Approaches for Protein-Ligand Binding Affinity Prediction [2.874893537471256]
本研究では,タンパク質-リガンド結合親和性予測における古典的木モデルと高度なニューラルネットワークの性能を評価する。
2次元モデルと3次元モデルを組み合わせることで、現在の最先端のアプローチを超えて、アクティブな学習結果が向上することを示す。
論文 参考訳(メタデータ) (2024-07-15T13:06:00Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Towards Effective and General Graph Unlearning via Mutual Evolution [44.11777886421429]
グラフアンラーニングの予測能力と未学習能力を同時に進化させる新しい相互進化パラダイムであるMEGUを提案する。
9つのグラフベンチマークデータセットの実験では、MEGUは2.7%、2.5%、および3.2%の平均的なパフォーマンス改善を達成した。
MEGUは、GNNをゼロから再訓練するのと比較して、それぞれ平均159.8xと9.6xの時間と空間のオーバーヘッドを減少させる、十分な訓練効率を示す。
論文 参考訳(メタデータ) (2024-01-22T08:45:29Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。