論文の概要: GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL
- arxiv url: http://arxiv.org/abs/2602.22190v1
- Date: Wed, 25 Feb 2026 18:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.951542
- Title: GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL
- Title(参考訳): GUI-Libra:Action-Aware Supervisionと部分検証可能なRLによる推論と動作のためのネイティブGUIエージェントのトレーニング
- Authors: Rui Yang, Qianhui Wu, Zhaoyang Wang, Hanyang Chen, Ke Yang, Hao Cheng, Huaxiu Yao, Baoling Peng, Huan Zhang, Jianfeng Gao, Tong Zhang,
- Abstract要約: オープンソースのネイティブGUIエージェントは、長い水平ナビゲーションタスクのクローズドソースシステムに遅れを取っている。
このギャップは、高品質でアクション整合性のある推論データが不足していることに起因している。
GUI-Libraは、これらの課題に対処する調整されたトレーニングレシピです。
- 参考スコア(独自算出の注目度): 64.8155693023222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-source native GUI agents still lag behind closed-source systems on long-horizon navigation tasks. This gap stems from two limitations: a shortage of high-quality, action-aligned reasoning data, and the direct adoption of generic post-training pipelines that overlook the unique challenges of GUI agents. We identify two fundamental issues in these pipelines: (i) standard SFT with CoT reasoning often hurts grounding, and (ii) step-wise RLVR-tyle training faces partial verifiability, where multiple actions can be correct but only a single demonstrated action is used for verification. This makes offline step-wise metrics weak predictors of online task success. In this work, we present GUI-Libra, a tailored training recipe that addresses these challenges. First, to mitigate the scarcity of action-aligned reasoning data, we introduce a data construction and filtering pipeline and release a curated 81K GUI reasoning dataset. Second, to reconcile reasoning with grounding, we propose action-aware SFT that mixes reasoning-then-action and direct-action data and reweights tokens to emphasize action and grounding. Third, to stabilize RL under partial verifiability, we identify the overlooked importance of KL regularization in RLVR and show that a KL trust region is critical for improving offline-to-online predictability; we further introduce success-adaptive scaling to downweight unreliable negative gradients. Across diverse web and mobile benchmarks, GUI-Libra consistently improves both step-wise accuracy and end-to-end task completion. Our results suggest that carefully designed post-training and data curation can unlock significantly stronger task-solving capabilities without costly online data collection. We release our dataset, code, and models to facilitate further research on data-efficient post-training for reasoning-capable GUI agents.
- Abstract(参考訳): オープンソースのネイティブGUIエージェントは、長い水平ナビゲーションタスクのクローズドソースシステムに遅れを取っている。
このギャップは、高品質でアクション整合性のある推論データの不足と、GUIエージェントのユニークな課題を見落としている一般的なポストトレーニングパイプラインの直接的な採用という2つの制限に起因している。
これらのパイプラインにおける2つの根本的な問題を特定します。
(i)CoT推論による標準SFTは、しばしば接地を損なうことがあり、
ステップワイズRLVRタイルトレーニングは、複数のアクションを正し得るが、検証には1つの実演アクションのみを使用する部分的検証性に直面する。
これにより、オフラインのステップワイドメトリクスがオンラインタスクの成功の予測を弱める。
本稿では,これらの課題に対処するトレーニングレシピであるGUI-Libraを紹介する。
まず、アクション整合性推論データの不足を軽減するために、データ構築とフィルタリングパイプラインを導入し、81K GUI推論データセットをキュレートする。
第二に、推論と接地とを一致させるために、推論と直接アクションデータを組み合わせた行動認識型SFTを提案し、アクションと接地を強調するためにトークンを再重み付けする。
第3に、部分的検証可能性の下でRLを安定化させるためには、RLVRにおけるKL正則化の重要性が見落とされ、オフラインからオンラインへの予測可能性を改善するためにKL信頼領域が重要であることを示す。
さまざまなWebおよびモバイルベンチマークにおいて、GUI-Libraはステップワイドの精度とエンドツーエンドのタスク補完の両方を一貫して改善している。
この結果から,オンラインデータ収集を犠牲にすることなく,学習後キュレーションやデータキュレーションを慎重に設計することで,タスク解決能力を大幅に強化できる可能性が示唆された。
推論可能なGUIエージェントのためのデータ効率後トレーニングのさらなる研究を容易にするために、データセット、コード、モデルをリリースする。
関連論文リスト
- GAIA: A Data Flywheel System for Training GUI Test-Time Scaling Critic Models [18.14416135619429]
本稿では,モデルに反復的批判機能を持たせるためのトレーニングフレームワークであるGUI Action Critic's Data Flywheel System (GAIA)を提案する。
具体的には、ベースエージェントからの正および負のアクション例を用いて直観的批判モデル(ICM)を訓練する。
我々は様々なデータセットの実験を行い、提案したICMが様々なクローズドソースおよびオープンソースモデルの試験時間性能を向上させることを実証する。
論文 参考訳(メタデータ) (2026-01-26T06:29:41Z) - ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。
実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T08:36:18Z) - InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners [41.22438639369124]
InfiGUI-R1は、Actor2Reasonerフレームワークを通じて開発されたMLLMベースのGUIエージェントである。
本研究では,教師モデルからMLLMへのクロスモーダル空間推論能力の伝達に空間推論蒸留を用いる。
Reinforcement Learning(強化学習)を用いて基礎的推論を熟考する。
論文 参考訳(メタデータ) (2025-04-19T09:25:55Z) - Freshness or Accuracy, Why Not Both? Addressing Delayed Feedback via
Dynamic Graph Neural Networks [23.952923773407043]
遅延フィードバック問題は、変換率を予測する上で最も困難な課題の1つである。
動的グラフニューラルネットワーク(DGDFEM)による遅延フィードバックモデリングを提案する。
データパイプラインの作成、動的グラフの構築、CVR予測モデルのトレーニングという3つのステージが含まれている。
論文 参考訳(メタデータ) (2023-08-15T23:49:07Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [54.34189781923818]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。