論文の概要: OS-Themis: A Scalable Critic Framework for Generalist GUI Rewards
- arxiv url: http://arxiv.org/abs/2603.19191v1
- Date: Thu, 19 Mar 2026 17:47:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.308507
- Title: OS-Themis: A Scalable Critic Framework for Generalist GUI Rewards
- Title(参考訳): OS-Themis: 汎用GUIリワードのためのスケーラブルな批判フレームワーク
- Authors: Zehao Li, Zhenyu Wu, Yibo Zhao, Bowen Yang, Jingjing Xie, Zhaoyang Liu, Zhoumianze Liu, Kaiming Jin, Jianze Liang, Zonglin Li, Feng Wu, Bowen Zhou, Zun Wang, Zichen Ding,
- Abstract要約: OS-Themisはスケーラブルで正確なマルチエージェント批判フレームワークである。
軌跡を検証可能なマイルストーンに分解し、意思決定のための重要な証拠を分離する。
最終判決を下す前に、エビデンスチェーンを厳格に監査するために、レビューメカニズムを採用している。
AndroidWorldの実験では、OS-ThemisはオンラインRLトレーニングをサポートする際に10.3%改善されている。
- 参考スコア(独自算出の注目度): 44.03496012544118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has the potential to improve the robustness of GUI agents in stochastic environments, yet training is highly sensitive to the quality of the reward function. Existing reward approaches struggle to achieve both scalability and performance. To address this, we propose OS-Themis, a scalable and accurate multi-agent critic framework. Unlike a single judge, OS-Themis decomposes trajectories into verifiable milestones to isolate critical evidence for decision making and employs a review mechanism to strictly audit the evidence chain before making the final verdict. To facilitate evaluation, we further introduce OmniGUIRewardBench (OGRBench), a holistic cross-platform benchmark for GUI outcome rewards, where all evaluated models achieve their best performance under OS-Themis. Extensive experiments on AndroidWorld show that OS-Themis yields a 10.3% improvement when used to support online RL training, and a 6.9% gain when used for trajectory validation and filtering in the self-training loop, highlighting its potential to drive agent evolution.
- Abstract(参考訳): 強化学習(RL)は確率的環境におけるGUIエージェントの堅牢性を向上させる可能性があるが、トレーニングは報酬関数の品質に非常に敏感である。
既存の報酬アプローチは、スケーラビリティとパフォーマンスの両方を達成するのに苦労しています。
そこで我々は,スケーラブルで正確なマルチエージェント批判フレームワークであるOS-Themisを提案する。
単一の裁判官とは異なり、OS-Themisは、決定のための重要な証拠を分離するために、軌道を検証可能なマイルストーンに分解し、最終的な判定を行う前に、証拠連鎖を厳格に監査するレビューメカニズムを使用する。
OmniGUIRewardBench (OGRBench) はGUI結果の総合的なベンチマークであり,OS-Themisで評価されたモデルが最高の性能を発揮する。
AndroidWorldでの大規模な実験によると、OS-ThemisはオンラインRLトレーニングをサポートする際に10.3%改善し、自己学習ループでの軌道検証とフィルタリングに使用すると6.9%向上し、エージェントの進化を促進する可能性を強調している。
関連論文リスト
- GAIA: A Data Flywheel System for Training GUI Test-Time Scaling Critic Models [18.14416135619429]
本稿では,モデルに反復的批判機能を持たせるためのトレーニングフレームワークであるGUI Action Critic's Data Flywheel System (GAIA)を提案する。
具体的には、ベースエージェントからの正および負のアクション例を用いて直観的批判モデル(ICM)を訓練する。
我々は様々なデータセットの実験を行い、提案したICMが様々なクローズドソースおよびオープンソースモデルの試験時間性能を向上させることを実証する。
論文 参考訳(メタデータ) (2026-01-26T06:29:41Z) - GDRO: Group-level Reward Post-training Suitable for Diffusion Models [55.948229011478304]
グループレベルの報酬は、モデルを目標とする報酬と整合させるのに成功します。
Group-level Direct Reward Optimization (GDRO)は、グループレベルの報酬アライメントのための新しいトレーニング後のパラダイムである。
GDROは完全なオフライントレーニングをサポートし、画像ロールアウトサンプリングの大幅なコスト削減を実現する。
これは拡散サンプラー非依存であり、取得性に対するODE-to-SDE近似の必要性を排除している。
論文 参考訳(メタデータ) (2026-01-05T11:47:18Z) - OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models [54.44308299945632]
クロスプラットフォームGUI批判データのためのスケーラブルなデータパイプライン、教師付き微調整と一貫性保護グループによる相対的なポリシー最適化を組み合わせた2段階のトレーニングパラダイム、モバイル、Web、デスクトッププラットフォームにおける批判モデルのパフォーマンスを評価するための総合ベンチマークであるOS-Critic Benchの3つのコアコントリビューションを紹介します。
結果として得られた批判モデルであるOS-Oracle-7Bは、OS-Critic Bench上のオープンソースのVLMの最先端のパフォーマンスを達成し、モバイルドメインのプロプライエタリモデルを上回っている。
論文 参考訳(メタデータ) (2025-12-18T08:29:50Z) - A Mathematical Framework for Custom Reward Functions in Job Application Evaluation using Reinforcement Learning [0.8709142317087694]
本稿では,小言語モデルに基づくより洗練された履歴書評価モデルを構築するための2段階のプロセスについて述べる。
このモデルはカスタム報酬関数上でGRPOを使用して微調整される。
その結果, GRPO分析モデルでは実世界の有効性が顕著に示され, 最終精度は91%であった。
論文 参考訳(メタデータ) (2025-11-20T06:06:30Z) - ProRe: A Proactive Reward System for GUI Agents via Reasoner-Actor Collaboration [24.005812534024965]
ProReは汎用推論エージェントとドメイン固有評価エージェントを利用するプロアクティブ報酬システムである。
ProReは報酬精度を最大5.3%、F1スコアを19.4%向上させる。
論文 参考訳(メタデータ) (2025-09-26T03:29:36Z) - CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks [11.121687042616974]
Reinforcement Learning (RL) は動的対話型GUI環境においてエージェントのパフォーマンスを効果的に向上させる。
ほとんどのアプローチはタスク固有のニュアンスを1つの粗い報酬に分解し、エージェントに非効率なポリシー更新をもたらす均一な信号を残す。
我々は,グループ相対政策最適化(GRPO)に基づくカリキュラム学習フレームワークであるCRAFT-GUIを提案する。
論文 参考訳(メタデータ) (2025-08-15T09:55:02Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。