論文の概要: CUARewardBench: A Benchmark for Evaluating Reward Models on Computer-using Agent
- arxiv url: http://arxiv.org/abs/2510.18596v1
- Date: Tue, 21 Oct 2025 12:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.534008
- Title: CUARewardBench: A Benchmark for Evaluating Reward Models on Computer-using Agent
- Title(参考訳): CUARewardBench:コンピュータ利用エージェントの逆モデル評価ベンチマーク
- Authors: Haojia Lin, Xiaoyu Tan, Yulei Qin, Zihan Xu, Yuchen Shi, Zongyi Li, Gang Li, Shaofei Cai, Siqi Cai, Chaoyou Fu, Ke Li, Xing Sun,
- Abstract要約: CUA(Computer-using Agent)は、オペレーティングシステムやソフトウェアインターフェースとの自然なインタラクションを通じてタスクの完了を可能にするエージェントである。
Reward モデルは有望な代替手段を提供するが、CUA 評価におけるその有効性はほとんど未検討である。
CUARewardBenchは4つの重要なコントリビューションから構成される。
- 参考スコア(独自算出の注目度): 46.41047559759938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-using agents (CUAs) enable task completion through natural interaction with operating systems and software interfaces. While script-based verifiers are widely adopted for evaluation, they suffer from limited scalability and inability to provide step-wise assessment. Reward models offer promising alternatives, but their effectiveness on CUA evaluation remains largely underexplored. To address this gap, we present CUARewardBench, comprising four key contributions: (1) First-ever Comprehensive CUA Reward Benchmark: We introduce the first benchmark for evaluating both outcome reward models (ORM) and process reward models (PRM) on CUA tasks, enabling systematic assessment across trajectory-level and step-level evaluation. (2) Diverse, Practical and Reliable Dataset: CUARewardBench encompasses trajectories from 10 software categories and 7 agent architectures with varying performance levels (25.9%-50.8% success rates). All trajectories are expertly annotated through carefully designed protocols, with rigorous quality control to ensure reliability and practical applicability. (3) Comprehensive Analysis and Insights: Through extensive experiments across 7 vision-language models and 3 prompt templates, we reveal critical limitations of current CUA RMs, including insufficient visual reasoning capabilities, knowledge deficiencies, and the superiority of general VLMs over specialized CUA models for reward evaluation. (4) Unanimous Prompt Ensemble (UPE): Based on the insights from our comprehensive analysis, we propose UPE, a novel ensemble method that significantly enhances reward model reliability through strict unanimous voting and strategic prompt-template configurations. UPE achieves 89.8% precision and 93.3% NPV for ORM, and 81.7% precision and 85.1% NPV for PRM, substantially outperforming single VLMs and traditional ensemble approaches.
- Abstract(参考訳): CUA(Computer-using Agent)は、オペレーティングシステムやソフトウェアインターフェースとの自然なインタラクションを通じてタスクの完了を可能にするエージェントである。
スクリプトベースの検証器は評価に広く採用されているが、スケーラビリティと段階的に評価する能力の不足に悩まされている。
Reward モデルは有望な代替手段を提供するが、CUA 評価におけるその有効性はほとんど未検討である。
このギャップに対処するため, CUARewardBenchは次の4つの主要なコントリビューションからなる: (1) 総合的CUAリワードベンチマーク: 結果報酬モデル(ORM)とプロセス報酬モデル(PRM)の両方をCUAタスク上で評価するための最初のベンチマークを導入し, 軌道レベルとステップレベルの評価を体系的に行うことができる。
2) 多様な、実用的で信頼性のあるデータセット: CUARewardBenchは、10のソフトウェアカテゴリと7つのエージェントアーキテクチャ(25.9%から50.8%の成功率)のトラジェクトリを含んでいる。
すべてのトラジェクトリは、信頼性と実用性を確保するために厳格な品質制御を備えた、慎重に設計されたプロトコルを通じて専門的に注釈付けされている。
3)包括的分析と洞察:7つの視覚言語モデルと3つのプロンプトテンプレートにまたがる広範な実験を通して,視覚的推論能力の不足,知識不足,および報酬評価のための専門的なCUAモデルよりも一般的なVLMの優位性など,現在のCUA RMの限界を明らかにする。
(4)全会一致アンサンブル(UPE):包括的分析から得られた知見に基づき,厳格な全会一致投票と戦略的急進的構成を通じて報酬モデルの信頼性を著しく向上する新しいアンサンブル手法であるUPEを提案する。
UPEは、ORMの89.8%の精度と93.3%のNPV、PRMの81.7%の精度と85.1%のNPVを達成し、単一のVLMと従来のアンサンブルアプローチを大きく上回っている。
関連論文リスト
- Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains [97.5573252172065]
自動推論評価器(FARE)のファミリーを,簡易な反復的リジェクションサンプリング制御による微調整手法で訓練する。
FARE-8Bはより大型のRL訓練評価器に挑戦し、FARE-20Bはオープンソース評価器の新しい標準となる。
推論時リランカとして、FARE-20BはMATH上でのニアオークル性能を達成する。
論文 参考訳(メタデータ) (2025-10-20T17:52:06Z) - Athena: Enhancing Multimodal Reasoning with Data-efficient Process Reward Models [19.924422958846144]
本稿では,プロセス報酬モデル(PRM)であるAthena-PRMを提案する。
当社のAthena-PRMは、複数のベンチマークやシナリオで一貫して優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-06-11T09:01:59Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - AURORA:Automated Training Framework of Universal Process Reward Models via Ensemble Prompting and Reverse Verification [31.463529258956452]
本稿では,アンサンブルのプロンプトと逆検証を用いた統一プロセス報酬モデル(PRM)をトレーニングするための新しいフレームワークであるAURORAを提案する。
まず、さまざまなプロンプト戦略とアンサンブルメソッドを使用して、自動化されたアノテーションとプロセスの評価を行います。
フレームワークのパフォーマンスを評価するために、UniversalBenchを導入することで、既存のProcessBenchベンチマークを超えて拡張します。
論文 参考訳(メタデータ) (2025-02-17T07:41:27Z) - PCA-Bench: Evaluating Multimodal Large Language Models in
Perception-Cognition-Action Chain [37.448177723993346]
MLLM(Multimodal Large Language Models)の統合能力を評価するベンチマークであるPCA-Benchを提案する。
タスク命令と多様なコンテキストが与えられたモデルでは、パーセプション、認知、アクションを推論チェーンにシームレスに統合する必要がある。
自動評価プロトコルであるPCA-Evalを提案し,10種類のMLLMを評価した。
論文 参考訳(メタデータ) (2024-02-21T07:09:58Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。