論文の概要: CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2603.10577v2
- Date: Thu, 12 Mar 2026 07:30:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.473612
- Title: CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents
- Title(参考訳): CUAAudit:自律型コンピュータ利用エージェントのオーディタとしての視覚言語モデルのメタ評価
- Authors: Marta Sumyk, Oleksandr Kosovan,
- Abstract要約: コンピュータ・ユースエージェント(CUA)は、人間のコンピュータインタラクションにおける新しいパラダイムとして登場し、ハイレベルな自然言語命令を知覚することで、デスクトップ環境におけるタスクの自律実行を可能にしている。
既存の評価パイプラインは、静的ベンチマーク、ルールベースの成功チェック、手作業によるインスペクションに依存している。
観察可能な相互作用から直接CUAタスク完了を評価する自律監査機として視覚言語モデル(VLM)について検討する。
現状のVLMは高い精度とキャリブレーションを達成するが、全ての監査員はより複雑な性能劣化を示す。
- 参考スコア(独自算出の注目度): 15.119045051735633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-Use Agents (CUAs) are emerging as a new paradigm in human-computer interaction, enabling autonomous execution of tasks in desktop environment by perceiving high-level natural-language instructions. As such agents become increasingly capable and are deployed across diverse desktop environments, evaluating their behavior in a scalable and reliable manner becomes a critical challenge. Existing evaluation pipelines rely on static benchmarks, rule-based success checks, or manual inspection, which are brittle, costly, and poorly aligned with real-world usage. In this work, we study Vision-Language Models (VLMs) as autonomous auditors for assessing CUA task completion directly from observable interactions and conduct a large-scale meta-evaluation of five VLMs that judge task success given a natural-language instruction and the final environment state. Our evaluation spans three widely used CUA benchmarks across macOS, Windows, and Linux environments and analyzes auditor behavior along three complementary dimensions: accuracy, calibration of confidence estimates, and inter-model agreement. We find that while state-of-the-art VLMs achieve strong accuracy and calibration, all auditors exhibit notable performance degradation in more complex or heterogeneous environments, and even high-performing models show significant disagreement in their judgments. These results expose fundamental limitations of current model-based auditing approaches and highlight the need to explicitly account for evaluator reliability, uncertainty, and variance when deploying autonomous CUAs in real-world settings.
- Abstract(参考訳): コンピュータ・ユースエージェント(CUA)は、人間のコンピュータインタラクションにおける新しいパラダイムとして登場し、ハイレベルな自然言語命令を知覚することで、デスクトップ環境におけるタスクの自律実行を可能にしている。
このようなエージェントがますます有能になり、多様なデスクトップ環境にデプロイされるようになると、その振る舞いをスケーラブルで信頼性の高い方法で評価することが重要な課題となる。
既存の評価パイプラインは、静的ベンチマーク、ルールベースの成功チェック、手作業によるインスペクションに依存している。
本研究では,視覚言語モデル(VLM)を,観察可能な相互作用から直接CUAタスク完了を評価する自律監査機として検討し,自然言語と最終環境状態のタスク成功を判断する5つのVLMの大規模メタ評価を行う。
我々の評価は、macOS、Windows、Linux環境で広く使用されているCUAベンチマーク3つにまたがっており、オーディショニングの動作を3つの相補的な側面(精度、信頼度推定の校正、モデル間合意)に沿って分析する。
現状のVLMは高い精度と校正を達成できるが, より複雑な環境や異種環境において, 全ての監査者が顕著な性能劣化を示し, 高い性能のモデルでさえ, 評価において大きな相違が見られることがわかった。
これらの結果は、現在のモデルに基づく監査アプローチの基本的限界を明らかにし、現実の環境で自律的なCUAをデプロイする際に、評価者の信頼性、不確実性、分散を明示的に考慮する必要があることを強調する。
関連論文リスト
- AgentNoiseBench: Benchmarking Robustness of Tool-Using LLM Agents Under Noisy Condition [72.24180896265192]
本稿では,騒音環境下でのエージェントモデルのロバスト性を評価するためのフレームワークであるAgentNoiseBenchを紹介する。
まず、実世界のシナリオにおけるバイアスと不確実性の詳細な分析を行う。
次に,環境騒音をユーザノイズとツールノイズの2つの主要なタイプに分類する。
この分析に基づいて,既存のエージェント中心ベンチマークに制御可能なノイズを注入する自動パイプラインを開発した。
論文 参考訳(メタデータ) (2026-02-11T20:33:10Z) - OutboundEval: A Dual-Dimensional Benchmark for Expert-Level Intelligent Outbound Evaluation of Xbench's Professional-Aligned Series [36.88936933010042]
OutboundEvalは、インテリジェントなアウトバウンドコールシナリオにおいて、大きな言語モデル(LLM)を評価するための包括的なベンチマークである。
6つの主要なビジネスドメインと30の代表的なサブシナリオにまたがるベンチマークを設計します。
本稿では,タスク実行の正確性,専門知識の適用性,適応性,ユーザエクスペリエンスの質を評価するために,タスクのバリエーションに適応する動的評価手法を提案する。
論文 参考訳(メタデータ) (2025-10-24T08:27:58Z) - JudgeAgent: Knowledge-wise and Dynamic LLM Evaluation with Agent-as-Interviewer [19.09571232466437]
大規模言語モデル(LLM)のための動的評価パラダイムであるエージェント・アズ・インタービューアを提案する。
現在のベンチマークや動的相互作用のパラダイムとは異なり、エージェント・アズ・インタービューアはエージェントを使用して動的マルチターン質問生成においてより広く深い知識を得るために知識ツールを呼び出します。
我々は、知識駆動型合成をエージェントのツールとして活用し、戦略指導として難易度スコアリングを利用する知識ワイドな動的評価フレームワークであるJiceAgentを開発する。
論文 参考訳(メタデータ) (2025-09-02T08:52:16Z) - Adapting Vision-Language Models for Evaluating World Models [24.813041196394582]
データおよび計算制約下でのシミュレーション環境におけるロールアウトに対する視覚言語評価手法であるUNIVERSEを提案する。
本研究では,タスク形式,コンテキスト長,サンプリング戦略,データ構成を網羅した,完全,部分的,パラメータ効率の微調整を大規模に検討する。
その結果得られた統合評価器は、単一のチェックポイントを使用してタスク固有のベースラインのパフォーマンスにマッチする。
論文 参考訳(メタデータ) (2025-06-22T09:53:28Z) - Sustainability via LLM Right-sizing [21.17523328451591]
大規模言語モデル(LLM)はますます組織に組み込まれている。
本研究は,10の日常業務において,プロプライエタリでオープンウェイトなLDMを11個評価することによって,実証的な回答を提供する。
その結果, GPT-4oは高い性能を保ちながら, コストと環境のフットプリントが著しく高いことがわかった。
論文 参考訳(メタデータ) (2025-04-17T04:00:40Z) - LMUnit: Fine-grained Evaluation with Natural Language Unit Tests [43.096722878672956]
応答品質を明示的でテスト可能な基準に分解するパラダイムである自然言語単体テストを導入する。
このパラダイムは、アノテーション間の合意を大幅に改善し、より効果的な開発を可能にする。
LMUnitは、評価ベンチマークとRewardBenchの競争結果で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-17T17:01:15Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - On the Limits of Evaluating Embodied Agent Model Generalization Using
Validation Sets [101.28658250723804]
本稿では,より広い視野を効果的に活用し,次のステップでナビゲーションや操作を行うかを選択するモジュールによるトランスフォーマーモデルの拡張実験を行う。
提案したモジュールは改良され,実際に,一般的なベンチマークデータセットであるALFREDの未確認検証セット上での最先端のパフォーマンスが向上した。
この結果は、機械学習タスクではより広い現象かもしれないが、主にテストスプリットの評価を制限するベンチマークでのみ顕著である、と我々は考えているので強調する。
論文 参考訳(メタデータ) (2022-05-18T23:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。