論文の概要: Computer Use at the Edge of the Statistical Precipice
- arxiv url: http://arxiv.org/abs/2605.08261v1
- Date: Thu, 07 May 2026 22:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.509192
- Title: Computer Use at the Edge of the Statistical Precipice
- Title(参考訳): 統計的前提の端点におけるコンピュータ利用
- Authors: Pierluca D'Oro, Sneha Silwal, William Wong, Yuxuan Sun, Fanyi Xiao, Manchen Wang, Eric Gan, Allen Bolourchi, Joseph Tighe,
- Abstract要約: 記録されたアクションシーケンスを盲目的に実行した1MBのリプレイスクリプトは、顕著な静的ベンチマークにおいてフロンティアモデルよりも優れていることを示す。
非原則的環境設計と非原則的評価手法の2つの根本原因を追究する。
- 参考スコア(独自算出の注目度): 19.604476051265852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating Computer Use Agents (CUAs) on interactive environments is fraught with methodological pitfalls that the field has yet to systematically address. We show that a 1MB replay script that blindly executes a recorded action sequence without ever observing the screen outperforms frontier models on prominent static benchmarks, and prove that its expected success rate is exactly equal to the source agent's pass@k in deterministic environments. We trace this and other failures to two root causes: non-principled environment design (static, unsandboxed, or unreliably verified environments) and non-principled evaluation methodology (naive aggregation and misuse of pass@k for stateful UI interactions). To address the first, we propose PRISM, five design principles for CUA environments (privileged verification, realistic environments, integrity-checked configurations, sandboxed execution, and multifactorial variability) and instantiate them in DigiWorld, a benchmark of 15 realistic sandboxed mobile applications able to evaluate agents in over 3.2 million verified unique configurations. To address the second, we develop an aggregation framework pairing Wilson score intervals with hierarchical bootstrap, producing confidence intervals that correctly account for the nested structure of CUA benchmarks, as we empirically demonstrate. All together, we show that principled environment design and rigorous evaluation methodology are not optional refinements but prerequisites for meaningful CUA research.
- Abstract(参考訳): 対話型環境におけるコンピュータ利用エージェント (CUA) の評価には, 分野がまだ体系的に対応していない方法論的な落とし穴が伴っている。
画面を観察することなく記録されたアクションシーケンスを盲目的に実行する1MBのリプレイスクリプトが、顕著な静的ベンチマークにおいてフロンティアモデルよりも優れており、その成功率が決定論的環境におけるソースエージェントのpass@kと全く同じであることを示す。
この2つの根本原因は、非原則環境設計(静的、非サンドボックス、信頼性の低い環境)と非原則評価方法論(ステートフルなUIインタラクションに対するpass@kの集約と誤用)である。
まず、CUA環境のための5つの設計原則であるPRISM(プライベート検証、現実的な環境、整合性チェックされた構成、サンドボックス実行、多要素変数)を提案し、DigiWorldでそれらをインスタンス化する。
2つ目は、Wilsonのスコア間隔と階層的なブートストラップをペアリングして、CUAベンチマークのネスト構造を正しく考慮した信頼区間を生成するアグリゲーションフレームワークである。
総じて、原則的環境設計と厳密な評価手法は、オプション的な改良ではなく、有意義なCUA研究の前提条件であることを示す。
関連論文リスト
- From Frames to Events: Rethinking Evaluation in Human-Centric Video Anomaly Detection [9.404376027901277]
ポースベースのビデオ異常検出(VAD)は、プライバシー保護の性質と環境変動に対する堅牢性において大きな注目を集めている。
従来のフレームレベルの評価では、ビデオは孤立したフレームの集合として扱われ、現実の世界で異常がどのように現れ、行動するかを根本的に誤解している。
本稿では,階層的なガウススムースメントと適応二項化を備えたスコアリファインメントパイプラインと,イベントレベルの検出を直接生成するエンドツーエンドのデュアルブランチモデルという,時間的イベントローカライゼーションのための2つの戦略を紹介する。
論文 参考訳(メタデータ) (2026-04-10T13:52:18Z) - K$α$LOS finds Consensus: A Meta-Algorithm for Evaluating Inter-Annotator Agreement in Complex Vision Tasks [4.297070083645049]
本稿では,「ローカライゼーションファースト」の原理を一般化した統一メタアルゴリズムであるK$LOSを提案する。
合意を査定する前に空間対応を解消することにより,複雑な分類問題を名目上の信頼性に変換する。
論文 参考訳(メタデータ) (2026-03-28T08:54:05Z) - AmbiBench: Benchmarking Mobile GUI Agents Beyond One-Shot Instructions in the Wild [30.138230316314534]
本稿では,一方向の指示から双方向の意図のアライメントへ評価をシフトするために,指示明細の分類を取り入れた最初のベンチマークであるAmbiBenchを紹介する。
厳密なレビュープロトコルの下で,25のアプリケーションにまたがる240の生態学的に有効なタスクの厳密なデータセットを構築した。
また,MLLM-as-a-judgeマルチエージェントアーキテクチャを利用した自動フレームワークであるMUSEを開発した。
論文 参考訳(メタデータ) (2026-02-12T09:25:15Z) - AgentNoiseBench: Benchmarking Robustness of Tool-Using LLM Agents Under Noisy Condition [72.24180896265192]
本稿では,騒音環境下でのエージェントモデルのロバスト性を評価するためのフレームワークであるAgentNoiseBenchを紹介する。
まず、実世界のシナリオにおけるバイアスと不確実性の詳細な分析を行う。
次に,環境騒音をユーザノイズとツールノイズの2つの主要なタイプに分類する。
この分析に基づいて,既存のエージェント中心ベンチマークに制御可能なノイズを注入する自動パイプラインを開発した。
論文 参考訳(メタデータ) (2026-02-11T20:33:10Z) - Automated Model Evaluation for Object Detection via Prediction Consistency and Reliability [3.9486037760311725]
PCR (Predict Consistency and Reliability) は, 地味ラベルを使わずに検出性能を推定する。
我々は、様々な重度の画像汚職を適用して、メタデータセットを構築する。
その結果,PCRは既存のAutoEval法よりも精度の高い性能推定値が得られることがわかった。
論文 参考訳(メタデータ) (2025-08-16T15:39:56Z) - Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。