論文の概要: The Art of Building Verifiers for Computer Use Agents
- arxiv url: http://arxiv.org/abs/2604.06240v1
- Date: Sun, 05 Apr 2026 06:26:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.106524
- Title: The Art of Building Verifiers for Computer Use Agents
- Title(参考訳): コンピュータ利用エージェントのためのビル検証技術
- Authors: Corby Rosset, Pratyusha Sharma, Andrew Zhao, Miguel Gonzalez-Fernandez, Ahmed Awadallah,
- Abstract要約: 我々は,Universal Verifier(ユニバーサル検証)と呼ぶWebタスクのための最良クラス検証器の構築から学んだ教訓を提示する。
ユニバーサル検証は4つの重要な原則に基づいて設計する。
ベースラインと比較して偽陽性率がほぼゼロに低下したことを報告した。
- 参考スコア(独自算出の注目度): 17.61915099226967
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Verifying the success of computer use agent (CUA) trajectories is a critical challenge: without reliable verification, neither evaluation nor training signal can be trusted. In this paper, we present lessons learned from building a best-in-class verifier for web tasks we call the Universal Verifier. We design the Universal Verifier around four key principles: 1) constructing rubrics with meaningful, non-overlapping criteria to reduce noise; 2) separating process and outcome rewards that yield complementary signals, capturing cases where an agent follows the right steps but gets blocked or succeeds through an unexpected path; 3) distinguishing between controllable and uncontrollable failures scored via a cascading-error-free strategy for finer-grained failure understanding; and 4) a divide-and-conquer context management scheme that attends to all screenshots in a trajectory, improving reliability on longer task horizons. We validate these findings on CUAVerifierBench, a new set of CUA trajectories with both process and outcome human labels, showing that our Universal Verifier agrees with humans as often as humans agree with each other. We report a reduction in false positive rates to near zero compared to baselines like WebVoyager ($\geq$ 45\%) and WebJudge ($\geq$ 22\%). We emphasize that these gains stem from the cumulative effect of the design choices above. We also find that an auto-research agent achieves 70\% of expert quality in 5\% of the time, but fails to discover all strategies required to replicate the Universal Verifier. We open-source our Universal Verifier system along with CUAVerifierBench; available at https://github.com/microsoft/fara.
- Abstract(参考訳): コンピュータ利用エージェント(CUA)軌道の成功を検証することは重要な課題であり、信頼性の高い検証がなければ、評価もトレーニング信号も信頼できない。
本稿では,Universal Verifier(ユニバーサル検証)と呼ぶWebタスクのための最良クラス検証器の構築から学んだ教訓について述べる。
ユニバーサル検証は4つの重要な原則に基づいて設計する。
1) 騒音低減のために有意義かつ重複しない基準でルーリックを構築すること。
2 相補的な信号をもたらす過程及び成果の報酬を分離し、エージェントが正しい手順を踏襲するが、予期しない経路でブロック又は成功する事例を捕えること。
3) よりきめ細かい故障理解のためのカスケードエラーフリー戦略により、制御不能と制御不能の故障を区別すること。
4)全てのスクリーンショットの軌跡に参画し、より長いタスクの地平線の信頼性を向上させる分割・コンテクスト管理方式。
これらの知見をCUAVerifierBench(CUAトラジェクトリ)で検証し,プロセスと結果の両方のラベルを持つ新しいCUAトラジェクトリ(CUAトラジェクトリ)について検証した。
WebVoyager($45\%)やWebJudge($22\%)といったベースラインと比較して、偽陽性率がほぼゼロに低下していると報告しています。
これらの利益は、上記の設計選択の累積効果に起因していると強調する。
また、自動検索エージェントは5倍の精度で70%のエキスパート品質を達成するが、Universal Verifierを複製するために必要なすべての戦略を見つけることができない。
CUAVerifierBenchとともにUniversal Verifierシステムをオープンソースとして公開し、https://github.com/microsoft/fara.comで公開しています。
関連論文リスト
- CORE: Robust Out-of-Distribution Detection via Confidence and Orthogonal Residual Scoring [9.25889614321249]
ディープラーニングモデルを確実にデプロイするためには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
本研究では,各部分空間を独立にスコアリングして2つの信号をアンタングル化し,それらを正規化和で結合するCOREを提案する。
COREは5つのアーキテクチャと5つのベンチマーク構成で、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-18T21:23:54Z) - CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution [52.691495954442985]
CoVerRLは1つのモデルがジェネレータと検証ロールを交換するフレームワークで、各機能が他方をブートストラップする。
Qwen と Llama のモデルファミリーでの実験では、CoVerRL は数理推論のベンチマークで4.7-5.9% でラベルなしのベースラインを上回っている。
自己検証の精度は55%から85%以上改善され、両方の能力が真に共存することを確認した。
論文 参考訳(メタデータ) (2026-03-18T14:38:55Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - VARP: Reinforcement Learning from Vision-Language Model Feedback with Agent Regularized Preferences [13.337649128532307]
嗜好に基づくRLは、比較フィードバックから報酬を学ぶことによって、これらの落とし穴のいくつかを緩和する。
単一の最終状態の画像は、一般的にエージェントの完全な動きを捉えるのに失敗する。
本稿では,フィードバックの精度を向上し,報酬学習とエージェントのポリシーの整合性を向上する2部構成のソリューションを提案する。
論文 参考訳(メタデータ) (2025-03-18T01:51:27Z) - RepPoints V2: Verification Meets Regression for Object Detection [65.120827759348]
本稿ではRepPointsのローカライズ予測に検証タスクを導入する。
RepPoints v2は、オリジナルのRepPointsよりも約2.0mAPの一貫性のある改善を提供する。
提案手法は、インスタンスセグメンテーションのようなアプリケーションと同様に、他のオブジェクト検出フレームワークをより高めることができることを示す。
論文 参考訳(メタデータ) (2020-07-16T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。