論文の概要: VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model
- arxiv url: http://arxiv.org/abs/2502.18906v1
- Date: Wed, 26 Feb 2025 07:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:57:03.201395
- Title: VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model
- Title(参考訳): VEM:価値環境モデルを用いた訓練用GUIエージェントの環境フリー探索
- Authors: Jiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang,
- Abstract要約: 政策最適化から価値推定を分離する環境のないRLフレームワークを提案する。
本フレームワークは,(1)長期活動ユーティリティを推定するためにVEMを事前訓練すること,(2)凍結したVEM信号による政策探索を導くこと,の2段階からなる。
Android-in-the-Wildベンチマークで評価すると、VEMはオフラインとオンラインの両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 34.98047665907545
- License:
- Abstract: Training Vision-Language Models (VLMs) for Graphical User Interfaces (GUI) agents via Reinforcement Learning (RL) faces critical challenges: environment-based RL requires costly interactions, while environment-free methods struggle with distribution shift and reward generalization. We propose an environment-free RL framework that decouples value estimation from policy optimization by leveraging a pretrained Value Environment Model (VEM). VEM predicts state-action values directly from offline data, distilling human-like priors about GUI interaction outcomes without requiring next-state prediction or environmental feedback. This avoids compounding errors and enhances resilience to UI changes by focusing on semantic reasoning (e.g., Does this action advance the user's goal?). The framework operates in two stages: (1) pretraining VEM to estimate long-term action utilities and (2) guiding policy exploration with frozen VEM signals, enabling layout-agnostic GUI automation. Evaluated on Android-in-the-Wild benchmarks, VEM achieves state-of-the-art performance in both offline and online settings, outperforming environment-free baselines significantly and matching environment-based approaches without interaction costs. Importantly, VEM demonstrates that semantic-aware value estimation can achieve comparable performance with online-trained methods.
- Abstract(参考訳): RL(Reinforcement Learning)によるグラフィカルユーザインタフェース(GUI)エージェントのためのビジョンランゲージモデル(VLM)のトレーニングは、環境ベースのRLではコストのかかるインタラクションが必要であり、環境のないメソッドでは分散シフトや報酬の一般化に苦労する。
本稿では,事前学習した価値環境モデル(VEM)を利用して,政策最適化から価値推定を分離する環境自由RLフレームワークを提案する。
VEMは、オフラインデータから直接状態-アクション値を予測し、次の状態予測や環境フィードバックを必要とせずに、GUIインタラクションの結果に関する人間のような事前情報を蒸留する。
これにより、エラーの複雑化を回避し、セマンティック推論(例えば、このアクションはユーザの目標を前進させるのか?
このフレームワークは,(1)長期的活動ユーティリティを推定するためにVEMを事前訓練し,(2)凍結したVEM信号によるポリシー探索を指導し,レイアウトに依存しないGUI自動化を実現する。
Android-in-the-Wildベンチマークで評価されたVEMは、オフラインとオンラインの両方で最先端のパフォーマンスを実現し、環境のないベースラインを著しく上回り、インタラクションコストなしで環境ベースのアプローチにマッチする。
重要なこととして、VEMはセマンティック・アウェアな価値推定がオンライン学習手法と同等のパフォーマンスを達成できることを示した。
関連論文リスト
- Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Transfer Learning for CSI-based Positioning with Multi-environment Meta-learning [1.1763850077553188]
チャネル状態情報(CSI)指紋によるユーザ機器(UE)の無線位置決めのための深層学習(DL)技術は大きな可能性を示唆している。
本稿では,2つの部分からなる新しいDLモデル構造を提案する。第1部は特定の環境から独立な特徴を特定することを目的としており,第2部は環境特異的な特徴と位置決めの目的を組み合わせている。
その結果,新しい未確認環境におけるDLモデルの重み付けを初期化するためのMEML手法を用いることで,新たなターゲット環境におけるUE位置決めの精度が向上し,不確実性評価の信頼性が向上することが示唆された。
論文 参考訳(メタデータ) (2024-05-20T06:23:22Z) - Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data [26.004807291215258]
言語条件付きロボット操作は、複雑なタスクを理解し実行することができるロボットを開発することを目的としている。
基本スキルの事前知識と非構造化データに基づく模倣学習を組み合わせた汎用的言語条件付き手法を提案する。
ゼロショット設定を用いてシミュレーション環境と実環境の両方におけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-05-30T14:40:38Z) - RE-MOVE: An Adaptive Policy Design for Robotic Navigation Tasks in
Dynamic Environments via Language-Based Feedback [56.219221064727016]
継続的制御ロボットナビゲーションタスクのための強化学習ベースのポリシーは、リアルタイムデプロイメント中に環境の変化に適応できないことが多い。
本稿では,RE-MOVEと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T04:20:59Z) - Rethinking Value Function Learning for Generalization in Reinforcement
Learning [11.516147824168732]
我々は、観測一般化性能を向上させるために、複数の訓練環境においてRLエージェントを訓練することの課題に焦点をあてる。
マルチ環境設定における価値ネットワークは、従来の単一環境設定よりもトレーニングデータの過度な適合を最適化し難い。
本稿では,政策ネットワークよりもトレーニングデータが多い値ネットワークを少ない頻度で最適化することにより,暗黙的に評価値のペナルティ化を行うDelayed-Critic Policy Gradient (DCPG)を提案する。
論文 参考訳(メタデータ) (2022-10-18T16:17:47Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Dynamic Value Estimation for Single-Task Multi-Scene Reinforcement
Learning [22.889059874754242]
同じタスクから複数のレベル/シーン/条件を持つ環境において、深層強化学習エージェントを訓練することは、多くのアプリケーションにとって欠かせないものとなっている。
本研究では,複数のMDP環境に対する動的値推定(DVE)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T17:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。