論文の概要: OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models
- arxiv url: http://arxiv.org/abs/2512.16295v1
- Date: Thu, 18 Dec 2025 08:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.981686
- Title: OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models
- Title(参考訳): OS-Oracle: クロスプラットフォームGUI批判モデルのための総合的なフレームワーク
- Authors: Zhenyu Wu, Jingjing Xie, Zehao Li, Bowen Yang, Qiushi Sun, Zhaoyang Liu, Zhoumianze Liu, Yu Qiao, Xiangyu Yue, Zun Wang, Zichen Ding,
- Abstract要約: クロスプラットフォームGUI批判データのためのスケーラブルなデータパイプライン、教師付き微調整と一貫性保護グループによる相対的なポリシー最適化を組み合わせた2段階のトレーニングパラダイム、モバイル、Web、デスクトッププラットフォームにおける批判モデルのパフォーマンスを評価するための総合ベンチマークであるOS-Critic Benchの3つのコアコントリビューションを紹介します。
結果として得られた批判モデルであるOS-Oracle-7Bは、OS-Critic Bench上のオープンソースのVLMの最先端のパフォーマンスを達成し、モバイルドメインのプロプライエタリモデルを上回っている。
- 参考スコア(独自算出の注目度): 54.44308299945632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With VLM-powered computer-using agents (CUAs) becoming increasingly capable at graphical user interface (GUI) navigation and manipulation, reliable step-level decision-making has emerged as a key bottleneck for real-world deployment. In long-horizon workflows, errors accumulate quickly and irreversible actions can cause unintended consequences, motivating critic models that assess each action before execution. While critic models offer a promising solution, their effectiveness is hindered by the lack of diverse, high-quality GUI feedback data and public critic benchmarks for step-level evaluation in computer use. To bridge these gaps, we introduce OS-Oracle that makes three core contributions: (1) a scalable data pipeline for synthesizing cross-platform GUI critic data; (2) a two-stage training paradigm combining supervised fine-tuning (SFT) and consistency-preserving group relative policy optimization (CP-GRPO); (3) OS-Critic Bench, a holistic benchmark for evaluating critic model performance across Mobile, Web, and Desktop platforms. Leveraging this framework, we curate a high-quality dataset containing 310k critic samples. The resulting critic model, OS-Oracle-7B, achieves state-of-the-art performance among open-source VLMs on OS-Critic Bench, and surpasses proprietary models on the mobile domain. Furthermore, when serving as a pre-critic, OS-Oracle-7B improves the performance of native GUI agents such as UI-TARS-1.5-7B in OSWorld and AndroidWorld environments. The code is open-sourced at https://github.com/numbmelon/OS-Oracle.
- Abstract(参考訳): VLMを利用したコンピュータ・ユース・エージェント(CUA)がGUI(GUI)ナビゲーションと操作にますます能力を持つようになり、信頼性の高いステップレベルの意思決定が現実のデプロイメントにおいて重要なボトルネックとなっている。
長期のワークフローでは、エラーは迅速に蓄積され、不可逆的なアクションは意図しない結果を引き起こす可能性がある。
批評家モデルは有望な解決策を提供するが、その効果は多様で高品質なGUIフィードバックデータとコンピュータ使用におけるステップレベルの評価のための公開批評家ベンチマークの欠如によって妨げられている。
これらのギャップを埋めるために、(1)クロスプラットフォームGUI批判データを合成するためのスケーラブルなデータパイプライン、(2)教師付き微調整(SFT)と一貫性を保つグループ相対ポリシー最適化(CP-GRPO)を組み合わせた2段階のトレーニングパラダイム、(3)モバイル、Web、デスクトッププラットフォームにおける批判モデルのパフォーマンスを評価するための総合ベンチマークであるOS-Critic Benchを紹介します。
このフレームワークを利用して、310kの批判サンプルを含む高品質なデータセットをキュレートする。
結果として得られた批判モデルであるOS-Oracle-7Bは、OS-Critic Bench上のオープンソースのVLMの最先端のパフォーマンスを達成し、モバイルドメインのプロプライエタリモデルを上回っている。
さらに、OS-Oracle-7Bは、プレクリティカルとして機能すると、OSWorldやAndroidWorld環境でのUI-TARS-1.5-7BのようなネイティブGUIエージェントのパフォーマンスが向上する。
コードはhttps://github.com/numbmelon/OS-Oracleで公開されている。
関連論文リスト
- Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents [71.85020581835042]
大規模言語モデルベースのエージェントは、ソフトウェアエンジニアリングの約束を示すが、環境構成はボトルネックのままである。
既存のベンチマークでは、エンドツーエンドのビルド/テストの成功のみを評価し、エージェントが成功または失敗する場所と理由を見極めている。
本研究では,環境設定計画中の細粒度エージェントのプロセスレベルの軌道評価を行うEnconda-benchを紹介する。
論文 参考訳(メタデータ) (2025-10-29T16:59:07Z) - UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - You Don't Know Until You Click:Automated GUI Testing for Production-Ready Software Evaluation [24.956175875766952]
RealDevWorldは、大規模言語モデル(LLM)とソフトウェア開発におけるコードエージェントの評価フレームワークである。
主なコンポーネントは、194のオープンエンドソフトウェアエンジニアリングタスクのコレクションであるRealDevBenchと、新しいエージェント・アズ・ア・ジャッジ評価システムであるAppEvalPilotだ。
実証的な結果は、RealDevWorldが効果的で、自動で、そして、人間に沿った評価を提供することを示している。
論文 参考訳(メタデータ) (2025-08-17T07:31:11Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - WorldGUI: An Interactive Benchmark for Desktop GUI Automation from Any Starting Point [17.165899818213475]
We introduced WorldGUI, a comprehensive GUI benchmark including tasks across 10 wide used desktop and web applications。
WorldGUI-Agentは3つのコアモジュールを統一する普遍的なフレームワークである。高レベルプラン修正のためのPlanner-Critic、中間検証のためのStep-Check、アクションレベルの最適化のためのActor-Criticである。
論文 参考訳(メタデータ) (2025-02-12T01:06:10Z) - OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.37173845836839]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。
現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文 参考訳(メタデータ) (2024-10-30T17:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。