論文の概要: OS-SPEAR: A Toolkit for the Safety, Performance,Efficiency, and Robustness Analysis of OS Agents
- arxiv url: http://arxiv.org/abs/2604.24348v1
- Date: Mon, 27 Apr 2026 11:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.92751
- Title: OS-SPEAR: A Toolkit for the Safety, Performance,Efficiency, and Robustness Analysis of OS Agents
- Title(参考訳): OS-SPEAR:OSエージェントの安全性、性能、効率、ロバスト性分析のためのツールキット
- Authors: Zheng Wu, Yi Hua, Zhaoyuan Huang, Chenhao Xue, Yijie Lu, Pengzhou Cheng, Zongru Wu, Lingzhong Dong, Gongshen Liu, Xinghao Jiang, Zhuosheng Zhang,
- Abstract要約: OS-SPEARは、安全、性能、効率、ロバストネスの4つの側面にわたるOSエージェントを体系的に分析するための包括的なツールキットである。
我々は、OS-SPEARを用いて、22のOSエージェントを広範囲に評価する。
- 参考スコア(独自算出の注目度): 30.910389076133693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evolution of Multimodal Large Language Models (MLLMs) has shifted the focus from text generation to active behavioral execution, particularly via OS agents navigating complex GUIs. However, the transition of these agents into trustworthy daily partners is hindered by a lack of rigorous evaluation regarding safety, efficiency, and multi-modal robustness. Current benchmarks suffer from narrow safety scenarios, noisy trajectory labeling, and limited robustness metrics. To bridge this gap, we propose OS-SPEAR, a comprehensive toolkit for the systematic analysis of OS agents across four dimensions: Safety, Performance, Efficiency, and Robustness. OS-SPEAR introduces four specialized subsets: (1) a S(afety)-subset encompassing diverse environment- and human-induced hazards; (2) a P(erformance)-subset curated via trajectory value estimation and stratified sampling; (3) an E(fficiency)-subset quantifying performance through the dual lenses of temporal latency and token consumption; and (4) a R(obustness)-subset that applies cross-modal disturbances to both visual and textual inputs. Additionally, we provide an automated analysis tool to generate human-readable diagnostic reports. We conduct an extensive evaluation of 22 popular OS agents using OS-SPEAR. Our empirical results reveal critical insights into the current landscape: notably, a prevalent trade-off between efficiency and safety or robustness, the performance superiority of specialized agents over general-purpose models, and varying robustness vulnerabilities across different modalities. By providing a multidimensional ranking and a standardized evaluation framework, OS-SPEAR offers a foundational resource for developing the next generation of reliable and efficient OS agents. The dataset and codes are available at https://github.com/Wuzheng02/OS-SPEAR.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の進化は、テキスト生成からアクティブな動作実行、特に複雑なGUIをナビゲートするOSエージェントへと焦点を移した。
しかし、これらのエージェントを信頼できる日々のパートナーに移行することは、安全性、効率性、マルチモーダルロバスト性に関する厳密な評価の欠如によって妨げられている。
現在のベンチマークでは、狭い安全シナリオ、ノイズの多い軌道ラベリング、ロバストネスの指標に悩まされている。
このギャップを埋めるため、OS-SPEARは、安全、性能、効率、ロバストネスの4次元にわたるOSエージェントを体系的に解析するための包括的なツールキットである。
OS-SPEARは,(1)多様な環境と人為的障害を含むS(afety)サブセット,(2)軌道値推定と階層化サンプリングによって算出されたP(erformance)サブセット,(3)時間的遅延とトークン消費の両レンズによるE(fficiency)サブセット定量化性能,(4)視覚的およびテキスト的入力の両方にクロスモーダル障害を適用したR(obustness)サブセットの4つの特別なサブセットを導入している。
また,人間可読性診断レポートを生成する自動解析ツールも提供する。
我々は、OS-SPEARを用いて、22のOSエージェントを広範囲に評価する。
とくに、効率性と安全性と堅牢性の間の大きなトレードオフ、汎用モデルよりも特殊エージェントの性能上の優位性、さまざまなモダリティにまたがる堅牢性脆弱性などです。
多次元のランキングと標準化された評価フレームワークを提供することで、OS-SPEARは次世代の信頼性と効率的なOSエージェントを開発するための基盤となるリソースを提供する。
データセットとコードはhttps://github.com/Wuzheng02/OS-SPEAR.comで公開されている。
関連論文リスト
- GAMMAF: A Common Framework for Graph-Based Anomaly Monitoring Benchmarking in LLM Multi-Agent Systems [0.42970700836450487]
本稿では,オープンソースのベンチマークプラットフォームであるGammaf(LLM Multi-Agent System Framework用のグラフベースの異常モニタリング)を紹介する。
Gammafは、新しい防御機構ではなく、合成マルチエージェントインタラクションデータセットを生成するために設計された包括的な評価アーキテクチャである。
論文 参考訳(メタデータ) (2026-04-27T13:45:14Z) - Beyond Static Benchmarks: Synthesizing Harmful Content via Persona-based Simulation for Robust Evaluation [14.366084759097445]
本稿では,ペルソナ誘導型大規模言語モデル(LLM)エージェントを利用した有害コンテンツを合成するフレームワークを提案する。
本手法は,2次元ユーザペルソナを,人口統計的アイデンティティとトピック的関心を状況的有害な戦略と統合することによって構築する。
ヒトとLDMをベースとした評価により,本フレームワークは高い有害発生率を達成できることを確認した。
論文 参考訳(メタデータ) (2026-04-18T14:58:02Z) - Explainable and Fine-Grained Safeguarding of LLM Multi-Agent Systems via Bi-Level Graph Anomaly Detection [76.91230292971115]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は複雑なタスクを解く上で強力な能力を示している。
XG-Guardは、MAS内の悪意のあるエージェントを検出するための、説明可能な、きめ細かい保護フレームワークである。
論文 参考訳(メタデータ) (2025-12-21T13:46:36Z) - OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows [77.95511352806261]
VLM(Vision-Language Models)を利用したコンピュータ利用エージェントは、モバイルプラットフォームのようなデジタル環境を操作する上で、人間のような能力を実証している。
我々は,明示的なシステムレベルの違反を検出するための形式検証器と,文脈的リスクとエージェント行動を評価するコンテキスト判断器を組み合わせた,新しいハイブリッド安全検出フレームワークOS-Sentinelを提案する。
論文 参考訳(メタデータ) (2025-10-28T13:22:39Z) - MAVUL: Multi-Agent Vulnerability Detection via Contextual Reasoning and Interactive Refinement [9.377934769326416]
MAVULは、コンテキスト推論と対話的洗練を統合した、新しいマルチエージェント脆弱性検出システムである。
その結果,MAVULは従来のマルチエージェントシステムよりも62%以上の精度で,単エージェントシステムでは600%以上の性能で性能が優れていた。
論文 参考訳(メタデータ) (2025-09-30T22:21:43Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - Deep Learning Models for Robust Facial Liveness Detection [56.08694048252482]
本研究では,現代のアンチスプーフィング手法の欠陥に対処する新しい深層学習モデルを用いて,ロバストな解を提案する。
テクスチャ解析と実際の人間の特性に関連する反射特性を革新的に統合することにより、我々のモデルは、顕著な精度でレプリカと真の存在を区別する。
論文 参考訳(メタデータ) (2025-08-12T17:19:20Z) - Expert-in-the-Loop Systems with Cross-Domain and In-Domain Few-Shot Learning for Software Vulnerability Detection [38.083049237330826]
本研究では,CWE(Common Weaknessions)を用いたPythonコードの識別をシミュレーションすることにより,ソフトウェア脆弱性評価におけるLLM(Large Language Models)の利用について検討する。
その結果,ゼロショットプロンプトは性能が低いが,少数ショットプロンプトは分類性能を著しく向上させることがわかった。
モデル信頼性、解釈可能性、敵の堅牢性といった課題は、将来の研究にとって重要な領域のままである。
論文 参考訳(メタデータ) (2025-06-11T18:43:51Z) - Run-time Introspection of 2D Object Detection in Automated Driving
Systems Using Learning Representations [13.529124221397822]
ディープニューラルネットワーク(DNN)に基づく2次元物体検出のための新しいイントロスペクションソリューションを提案する。
KITTIとBDDのデータセットで評価された1段階および2段階のオブジェクト検出器を用いて,2次元オブジェクト検出におけるエラー検出のためのSOTAイントロスペクション機構を実装した。
性能評価の結果,提案手法はSOTA法より優れており,BDDデータセットのエラー率を9%から17%まで絶対的に削減できることがわかった。
論文 参考訳(メタデータ) (2024-03-02T10:56:14Z) - MMRNet: Improving Reliability for Multimodal Object Detection and
Segmentation for Bin Picking via Multimodal Redundancy [68.7563053122698]
マルチモーダル冗長性(MMRNet)を用いた信頼度の高いオブジェクト検出・分割システムを提案する。
これは、マルチモーダル冗長の概念を導入し、デプロイ中のセンサ障害問題に対処する最初のシステムである。
システム全体の出力信頼性と不確実性を測定するために,すべてのモダリティからの出力を利用する新しいラベルフリーマルチモーダル整合性(MC)スコアを提案する。
論文 参考訳(メタデータ) (2022-10-19T19:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。